发布时间:2025-03-26 10:25:21被阅览数:64 次信息来源:《中国档案》
文/程妍妍
档案信息资源应当按照既定模型来组织、存储、加工和管理,形成涵盖档案实体、业务活动、规则知识的逻辑结构。现代档案信息资源模型已经从传统著录模型发展为基于本体的知识模型,统一、高质量、标准化的档案信息资源知识模型可以支持形成可发现、可获取、可理解和互操作的档案信息资源,支持时空、人、物、事件等大规模复杂知识的高效组织表达。笔者通过研究国际档案信息资源模型的发展,以期为我国档案信息资源模型研究和档案资源建设提供思路和借鉴。
发展背景
档案信息资源模型是对档案信息资源的结构及其相互关系的一种形式化表达方式。在认识层面,可以通过模型对复杂的档案信息资源结构组成进行抽象,去繁就简,提取出其中的核心要素,揭示其相互关系;在应用层面,可以将模型应用于档案信息资源的规范化描述,支持档案资源的开发利用实践。国际档案信息资源模型的发展伴随着社会信息环境的变化,主要经历了3个阶段的发展过程,每一阶段新模型的提出都代表新的认识和飞跃。
1.第一代档案信息资源模型—多级著录模型
国际档案信息资源模型的研究始于档案著录工作。早期,档案信息资源模型和档案著录工作密不可分。档案著录工作就是“对档案工作实践中的档案实体、实体关系、属性的高层次抽象”,著录规则即是档案信息资源模型。档案资源通过著录形成一定的结构描述、存储、交换和利用。著录模型是否完善决定档案信息资源的发现和利用程度。因此,第一代国际档案信息资源模型体现在档案著录标准中。20世纪90年代,国际档案理事会(ICA)发布了《国际档案著录规则》,提出档案信息资源应当采用多级著录模型进行描述,如图1所示。
图1 多级著录模型
多级著录模型的核心就是应当著录档案全宗、类别、案卷、文件各个级次的信息,并且在这些级次之间保持关联。根据该模型形成的档案信息资源能够支持各级次间的关联检索应用。该标准在国际领域影响广泛,例如英国、美国、加拿大、西班牙、巴西等都以此标准为基础制定本土著录标准,因此是国际档案信息资源的通用模型。2022年,我国发布的行业标准《档案著录规则》也采纳了该多级著录模型。
在此基础之上,随着电子文件的普及,国际领域提出电子文件管理元数据的概念,元数据是“描述电子文件和电子档案的内容、背景、结构及其管理过程的数据”,元数据模型即是适应电子文件时代的档案信息资源模型。国际标准化组织(ISO)在《文件元数据概念与实施问题》(ISO23081)中正式提出元数据多维模型,如图2所示。
图2 元数据多维模型
该模型指出应采用文件元数据、人员元数据、业务元数据、法规标准元数据及关系元数据5个维度描述现代档案信息资源,并且该模型也可以描述每个维度的级次,例如文件元数据又细分为全宗群、全宗、类别、案卷、文件组合和文件级次,人员元数据细分为组织、机构、工作组和个人级次等。因此,与第一代模型相比,元数据多维模型集成了前一个阶段的研究成果,其优势是不仅可以描述档案信息资源各级次的特点属性,也可以描述档案信息资源更广阔的背景信息,例如和档案资源相关的人员、业务、法规标准等,可以视为对多维模型的升级和拓展。同时,这一时期,元数据多维模型也深刻影响了传统著录标准,部分国家提出元数据标准应与著录标准合二为一或是取代著录标准。
3.第三代档案信息资源模型—本体知识模型
伴随语义网和通信技术的发展,为便于集成语义网数据和服务,实现多个档案馆馆藏甚至是跨领域的档案信息资源共享,需要研究第三代模型。2012年,国际档案理事会成立档案著录专家组,研究语义网时代的档案信息资源模型;2016年,发布国际档案资源知识模型标准《背景中的文件——概念模型》第一版;2017年,对第一版进行修订,使其更适应档案领域数据模型特点和电子文件特点。2023年,发布正式版第一版。
该模型集成多级、多维的理念,采用语义网本体拓展档案资源描述的广度、深度并建立知识网络。知识模型能够推动语义网背景下档案信息资源跨领域的共享和利用。为适应语义网数据资源互操作,各领域开始打破领域间的限制,采用一致的信息共享理念和语义模型,该知识模型可以和图书馆、博物馆等其他领域形成一致的本体语义语法描述结构,从而拓展档案信息资源的共享空间。知识模型还是形成语义网的前提和基础,是档案科学开放数据的基础,同时也能够推动档案数据在互联网的分发和集成利用。
最新成果:本体知识模型
发展到第三代,档案信息资源模型向知识模型转变。档案信息资源知识模型描述档案领域的概念、实体、属性、关系,从而支持档案信息资源的机器理解和推理应用。国际档案理事会发布的《背景中的文件》(RecordsinContext,以下简称“RiC”)系列标准包括4个部分,即:(1)《背景中的文件—档案著录介绍》(以下简称“RiC-IAD”):简要说明档案著录的原则和目标;(2)《背景中的文件—概念模型》(以下简称“RiC-CM”):说明档案知识模型;(3)《背景中的文件—本体》(以下简称“RiC-O”):采用OWL本体语言描述知识模型;(4)《背景中的文件—应用指南》(以下简称“RiC-AG”):为软件开发商提供在文件管理系统中具体实施RiC-CM和RiC-O的标准指南。法国国家档案馆专门制作了该模型的原型演示系统(在线演示网址为http://piaaf.demo.logilab.fr/)。该系列标准从概念模型的理论建构到语法实施、市场化落地、原型演示都有了相对成熟的依据和指南。其核心是定义了档案信息资源知识模型,该模型的核心是本体,本体就是一个形式化的知识表示,包含领域中的概念实体、属性、关系等元素。
1.实体
实体是从领域知识背景中提炼得来的,既可以是实际存在的对象,也可以是抽象的概念。RiC-CM标准定义了4级22个实体,这些实体是从文件和档案工作者的角度,从文件生命周期中提炼的,有助于文件和档案的长久保存、检索利用以及理解所需的必备对象,具体内容如表1所示。
表1 RiC-CM标准本体列表
从这些实体特点来看:一是以凭证性为目标设计核心实体。其中文件资源、文件实例、主体和业务4个实体为核心实体,这4个核心实体是在确保业务目标完成过程中最重要的凭证,捕获了文件的来源和长久保存背景的关键信息。二是兼容传统标准。这些实体是在《国际档案著录规则》《国际档案规范记录(机构团体、个人和家族)著录规则》《国际档案职能著录规则》《国际档案馆藏机构著录规则》和《文件元数据概念与实施问题》等标准的基础上协调、整合、建设而来的。三是跨领域交换。该模型也充分吸纳其他领域实体,例如时间、地点来自都柏林核心元数据标准,这些实体同时也是传统档案著录标准中强调的主要检索点。同时,该模型实体也整合了图书馆领域书目记录功能需求模型(FRBR)的理念,例如文件资源和文件实例的设计。因此,该模型实体在保持档案领域实体特点的同时,也兼容其他信息领域模型,为跨领域的信息共享和交换打下一致基础。
2.属性
属性用于描述实体的特征。属性可以描述实体的内部特征,例如文件实体的语种属性;也可以描述实体的外部特征,例如文件实体的标识符属性等。目前,RIC标准为表1中的四级实体都制定了相应的属性,例如第一级实体事物具有3个属性,即RiC-A16 Descriptive Note(注释)、RiC-A22Identifier(标识符)和RiC-A28Name(名称)。第二级实体文件资源具有7个属性,即RiC-A16Descriptive Note(注释)、RiC-A22Identifier(标识符)、RiC-A28Name(名称)、RiC-A21History(历史)、RiC-A35RecordResourceExtent(文件资源范围)、RiC-A38Scopeandcontent(范围和内容)和RiC-A40Structure(结构)。该模型属性具有以下特点:一是继承。下级实体继承上级实体属性,例如所有二级实体都具有第一级实体的属性。二是拓展。每一级实体除继承上级实体属性外,也发展特色属性。三是语法定义。在RiC-O语法标准中,属性语法定义对以下特殊情况进行处理。其一,不同实体定义的属性存在相同的语义。在这种情况下,这些属性定义为一个属性,其值域指向不同的实体类,例如,RiC-PlanguageInformation(语种信息)属性可以作为RiC-E1Record(文件)、RiC-E3RecordSet(文件集)、RiC-E4Agent(主体)3个实体的共同属性,只需在其值域里进行区分即可。其二,属性的名称相同但语义不同,例如不同实体中都有Type属性,但各Type属性语义和其所属实体相关,并不完全相同。