发布时间:2024-07-23 20:18:47被阅览数:190 次信息来源:《中国档案》
文/丁德胜
数字档案构成是指对数字档案的组成部分及其关系进行的界定和描述。与以往电子文件或电子档案从单一角度描述档案的构成不同,本文尝试从构成要素、呈现方式、数据类型三个角度对数字档案构成进行分析,同时梳理不同角度构成内容之间的关系(如图所示),力求将数字档案构成与数字档案的必备要素、管理对象、管理思路关联起来,为有效管理数字档案建立良好的认知基础。
数字档案构成图
角度一:构成要素
从构成要素角度界定数字档案构成是目前电子文件、电子档案定义及相关管理规范采用的常见做法。从这一角度认识数字档案的构成,有助于深入认识数字档案内涵,了解数字档案元数据构成内容,方便从构成要素层面定义真实性、完整性、可用性与安全性并提出相应要求。
1.主要观点
目前,数字档案构成有“三要素观”“四要素观”“五要素观”。国际档案理事会电子档案委员会1997年在《基于档案视角的电子档案管理指南》(Guide ForManaging Electronic Records From anArchival Perspective)中将档案定义为:由机构或个人在其活动的开始、进行和结束过程中产生或接收的记录信息,不管记录信息的形式和载体如何,该记录信息由足以为其活动提供凭证的内容(content)、背景(context)和结构(structure)组成,提出档案“三要素观”。美国、欧盟等在一些档案管理规范中又增加了外观(presentation) 要素,认为内容、结构和背景在长期保存过程中不可改变,但外观即呈现方式可能会变化,提出了“四要素观”。电子系统中档案真实性永久保障国际合作项目(InterPARES)提供的“电子档案要素分析模板”将构成要素分为“具备档案联系(archival bond)”等5个方面,提出了档案“五要素观”。这些观点都具有一定的理论和实践意义,其中“三要素观”得到了广泛认可和接受,也为我国《电子档案管理基本术语》(DA/T58一2014)、《电子文件归档与电子档案管理规范》(GB/T18894-2016)等标准采用。
2.具体构成
按照“三要素观”,数字档案由内容、结构、背景组成。
内容是指以字符、图形、图像、音频、视频等形式表示的数字档案的主题信息,如电子公文的发文字号、标题、主送机关、正文、责任者、时间等信息,数据库文件标题、数据表、视图、存储过程的名称等。内容要素是数字档案的信息主体。
结构是指数字档案内容的组织和存储方式,包括逻辑结构和物理结构。逻辑结构是指数字档案内容的各信息单元之间关系的描述,如字体字号、文字的排列、章节的构成、各页的先后顺序、插图的标号位置等,决定了数字档案的内容、版面格式等正确呈现。物理结构是指数字档案在存储设备或载体中的存储位置和文件格式,决定了数字档案的寻址方向与方法。结构要素对于数字档案长期可用和安全具有重要意义。
背景是指数字档案形成、传输、使用和维护的框架,是能够证明数字档案形成过程和档案之间相互关系的信息。根据《基于档案视角的电子档案管理指南》,数字档案至少包括3类背景信息:包含在档案内的背景信息,如电子公文的紧急程度、密级和保密期限、拟稿人、拟稿时间等:全宗内该档案与其他相关档案之间的有机联系,如同一业务活动、主题或事由档案之间的关联关系;创建档案的活动,包括档案得以形成的工作事项、业务活动,档案的拟制或办理过程,档案形成、管理的技术环境等。《电子档案管理基本术语》(DA/T 58-2014)将背景概括为行政背景、来源背景、业务流程背景以及技术背景。背景要素为数字档案的真实、完整和可用提供证明。
角度二:呈现方式
呈现方式是从元数据定义引申出来的数字档案构成角度。元数据一般被称为描述数据的数据,因而数字档案管理应当至少包括2类对象:一类是数据本身,本文称之为内容数据(原文);另一类是对数据进行描述的数据,即元数据。从呈现方式角度界定数字档案构成在理论研究中鲜有涉及,但却是实践中最经常采用的做法,如在数字档案管理中强调档案数字复制件与元数据一并管理、电子公文与元数据一并管理,在建立档案管理系统时要统筹考虑内容数据(原文)与元数据管理等。从这一角度认识数字档案的构成,可以较为直观地认识和理解数字档案外延,并明确数字档案的管理对象。
1.内容数据(原文)
内容数据(原文)相当于通常意义上的数字档案,但从严格意义上来讲,内容数据(原文)还不能完全与数字档案画等号。以电子公文为例,电子公文包含构成数字档案的内容、结构和背景要素,但背景要素中有关拟稿人、拟稿时间等信息并不保存在内容数据(原文)中,需要额外通过元数据进行记录和保存。常见的档案数字复制件的数字图像或版式文件、电子公文、数码照片、数字录音、数字录像、电子邮件、数据库文件等都属于内容数据(原文)范畴。
由此,可以将内容数据(原文)理解为具备数字档案内容、结构和部分背景要素的,且通常以一个或多个计算机文件(如OFD、JPG、MP4等格式文件)形式存在的数字档案管理对象。内容数据(原文)是数字档案管理的主要对象。
2.元数据
数字档案元数据是指描述数字档案内容、背景、结构及其管理过程的数据。
在数字档案管理过程中,元数据是进行数字档案管理的重要工具,同时也是数字档案管理的重要对象。进行数字档案元数据管理需要了解元数据分类,确定元数据方案,并选择适当的元数据管理方式。
(1)元数据分类
科学的元数据分类有助于建立合理元数据方案。数字档案元数据分类有3种常见方式:一是按定义分类,即按照数字档案元数据定义将元数据分为描述数字档案内容、背景、结构的数据和描述数字档案管理过程的数据2部分,或者细分为内容元数据、背景元数据、结构元数据、管理过程元数据4部分。二是按照模型分类,即按照ISO 23081标准确定的元数据概念实体模型(亦称作“法规三元组”模型)将元数据类型划分为档案(Records)、主体(People/agents)、业务(Business)、授权(Mandates)、关系(Relationship)五大实体。三是按照业务分类,即结合上述2种分类方式,同时兼顾档案业务特点,将元数据分为基本内容信息(含著录信息)、计算机属性信息、访问控制信息、过程管理信息等,以方便理解和阅读。
(2)元数据方案
元数据方案(metadataschema)是对数字档案元数据元素(即元数据项)的语义、语法、赋值及其相互关系(结构)的系统性规定,是确定元数据分类、范围和编制方法,进行元数据管理的基本依据。组织机构可以参照《文书类电子文件元数据方案》(DA/T46-2009)、《照片类电子档案元数据方案》(DA/T54-2014)、《录音录像类电子档案元数据方案》(DA/T 63-2017)等制定相应门类档案的元数据方案。需要指出的是,上述标准均参照了“法规三元组”模型制定,组织机构在制定本单位元数据方案时也可以根据实际情况选择前述其他分类方式。
(3)元数据管理
元数据与数字档案的关系主要包括“伴随”“包含”“链接”“打包”4种形式。“伴随”是指元数据是数字档案本身携带的属性信息,如数码照片宽度、高度、分辨率、摄影机型号等属性信息:“包含”是指数字档案内容数据(原文)中包含的元数据,如电子公文的标题、成文时间等;“链接”是指元数据与数字档案独立保存,元数据通过利用指针、链接维护二者的关联,如与数字档案存在联系、保存在数据库中的元数据;“打包”是指采用技术工具将数字档案与元数据物理存放在一起,封装成VEO封装包、METS封装包、EEP封装包、ZIP封装包等。进行数字档案元数据管理,建议同时采用“链接”与“打包”2种方式,兼顾平时应用和长期保存2种需求。
角度三:数据类型
从数据类型角度界定数字档案构成在档案理论与实践中均少有涉及。从这一角度认识数字档案的构成,有助于认识数字档案的本质属性,方便结合数据类型对数字档案管理提出针对性要求。
1.对应关系
前已述及,数字档案包括内容数据(原文)和元数据2类管理对象,而数据类型分为非结构化数据、结构化数据、半结构化数据,因而建立管理对象与数据类型之间对应关系,并根据数据类型对管理对象提出统一管理策略就显得格外重要。
在数字档案2类管理对象中,元数据在系统内为结构化数据,但内容数据(原文)较为复杂,有3类比较代表性的情况:一是电子公文,这类档案同时包含非结构化数据和结构化数据,公文办理过程中收到的文件,发文的正本、定稿、花脸稿为非结构化数据,但文件处理单、发文稿纸在系统内为结构化数据:二是网页信息,这类档案一般以HTML等文件格式管理和保存,属于半结构化数据;三是数据库表,这类档案一般情况下为结构化数据。
2.管理思路
(1)非结构化数据和半结构化数据管理
对于非结构化数据和半结构化数据来说,由于有关业务系统已经将相关活动或事项处理的数据汇集为一个个具有逻辑结构的WPS、OFD、HTML计算机文件,只要按照规定的文件格式进行收集和管理即可。格式不符合要求的应当进行格式转换。
(2)结构化数据管理
除了继续以结构化数据方式进行管理外,还应根据情况将之转化为半结构化或非结构化数据进行管理。不需要形成固定的报表样式的,如数字档案元数据(包含电子签名、电子印章签名数据和过程信息)、针对某项工作形成的统计数据表等,可以参考《档案关系型数据库转换为XML文件的技术规范》(DA/T 57-2014)等要求,将数据表转换为XML、JSON文件等半结构化数据后进行收集和管理:需要形成固定的报表样式的,如电子公文文件处理单、电子证照、电子发票等,可以转成OFD版式文件等非结构化数据后进行收集和管理。
作者单位:国家档案局
责任编辑:王辉