国际档案信息资源模型的发展及启示——从著录模型到知识模型

发布时间:2025-03-26 10:25:21被阅览数:64 次信息来源:《中国档案》

  文/程妍妍
  档案信息资源应当按照既定模型来组织、存储、加工和管理,形成涵盖档案实体、业务活动、规则知识的逻辑结构。现代档案信息资源模型已经从传统著录模型发展为基于本体的知识模型,统一、高质量、标准化的档案信息资源知识模型可以支持形成可发现、可获取、可理解和互操作的档案信息资源,支持时空、人、物、事件等大规模复杂知识的高效组织表达。笔者通过研究国际档案信息资源模型的发展,以期为我国档案信息资源模型研究和档案资源建设提供思路和借鉴。
  发展背景
  档案信息资源模型是对档案信息资源的结构及其相互关系的一种形式化表达方式。在认识层面,可以通过模型对复杂的档案信息资源结构组成进行抽象,去繁就简,提取出其中的核心要素,揭示其相互关系;在应用层面,可以将模型应用于档案信息资源的规范化描述,支持档案资源的开发利用实践。国际档案信息资源模型的发展伴随着社会信息环境的变化,主要经历了3个阶段的发展过程,每一阶段新模型的提出都代表新的认识和飞跃。
  1.第一代档案信息资源模型—多级著录模型

  国际档案信息资源模型的研究始于档案著录工作。早期,档案信息资源模型和档案著录工作密不可分。档案著录工作就是“对档案工作实践中的档案实体、实体关系、属性的高层次抽象”,著录规则即是档案信息资源模型。档案资源通过著录形成一定的结构描述、存储、交换和利用。著录模型是否完善决定档案信息资源的发现和利用程度。因此,第一代国际档案信息资源模型体现在档案著录标准中。20世纪90年代,国际档案理事会(ICA)发布了《国际档案著录规则》,提出档案信息资源应当采用多级著录模型进行描述,如图1所示。

1.jpg

图1 多级著录模型

  多级著录模型的核心就是应当著录档案全宗、类别、案卷、文件各个级次的信息,并且在这些级次之间保持关联。根据该模型形成的档案信息资源能够支持各级次间的关联检索应用。该标准在国际领域影响广泛,例如英国、美国、加拿大、西班牙、巴西等都以此标准为基础制定本土著录标准,因此是国际档案信息资源的通用模型。2022年,我国发布的行业标准《档案著录规则》也采纳了该多级著录模型。

  采用多级著录模型的优势是可以描述档案信息资源各级次的特点属性,并且关联各级次信息,改变传统著录模型只描述档案信息资源的文件级次信息,忽略文件集合(案卷、类别、全宗)信息的情况。缺点是无法对档案资源背景信息进行描述,例如文件形成的业务活动、文件相关人员等背景的描述。而在信息时代,这些背景信息对于电子文件凭证性来说至关重要,因此,后续国际领域又推出了第二代模型。
  2.第二代档案信息资源模型—元数据多维模型
  伴随电子文件的发展,国际档案领域开始研究第二代档案信息资源模型,国际档案理事会为扩展对档案信息资源背景信息的描述,颁布了一系列标准,包括《国际档案规范记录(机构团体、个人和家族)著录规则》[ISAAR(CPF)]、《国际档案职能著录规则》(ISDF)和《国际档案馆藏机构著录规则》(ISDIAH),这些标准从档案资源涉及的责任者、业务职能和馆藏机构等多个维度描述档案资源背景信息,可视为元数据多维模型的雏形。

  在此基础之上,随着电子文件的普及,国际领域提出电子文件管理元数据的概念,元数据是“描述电子文件和电子档案的内容、背景、结构及其管理过程的数据”,元数据模型即是适应电子文件时代的档案信息资源模型。国际标准化组织(ISO)在《文件元数据概念与实施问题》(ISO23081)中正式提出元数据多维模型,如图2所示。

2.JPG

图2 元数据多维模型

  该模型指出应采用文件元数据、人员元数据、业务元数据、法规标准元数据及关系元数据5个维度描述现代档案信息资源,并且该模型也可以描述每个维度的级次,例如文件元数据又细分为全宗群、全宗、类别、案卷、文件组合和文件级次,人员元数据细分为组织、机构、工作组和个人级次等。因此,与第一代模型相比,元数据多维模型集成了前一个阶段的研究成果,其优势是不仅可以描述档案信息资源各级次的特点属性,也可以描述档案信息资源更广阔的背景信息,例如和档案资源相关的人员、业务、法规标准等,可以视为对多维模型的升级和拓展。同时,这一时期,元数据多维模型也深刻影响了传统著录标准,部分国家提出元数据标准应与著录标准合二为一或是取代著录标准。

  3.第三代档案信息资源模型—本体知识模型
  伴随语义网和通信技术的发展,为便于集成语义网数据和服务,实现多个档案馆馆藏甚至是跨领域的档案信息资源共享,需要研究第三代模型。2012年,国际档案理事会成立档案著录专家组,研究语义网时代的档案信息资源模型;2016年,发布国际档案资源知识模型标准《背景中的文件——概念模型》第一版;2017年,对第一版进行修订,使其更适应档案领域数据模型特点和电子文件特点。2023年,发布正式版第一版。
  该模型集成多级、多维的理念,采用语义网本体拓展档案资源描述的广度、深度并建立知识网络。知识模型能够推动语义网背景下档案信息资源跨领域的共享和利用。为适应语义网数据资源互操作,各领域开始打破领域间的限制,采用一致的信息共享理念和语义模型,该知识模型可以和图书馆、博物馆等其他领域形成一致的本体语义语法描述结构,从而拓展档案信息资源的共享空间。知识模型还是形成语义网的前提和基础,是档案科学开放数据的基础,同时也能够推动档案数据在互联网的分发和集成利用。
  最新成果:本体知识模型
  发展到第三代,档案信息资源模型向知识模型转变。档案信息资源知识模型描述档案领域的概念、实体、属性、关系,从而支持档案信息资源的机器理解和推理应用。国际档案理事会发布的《背景中的文件》(RecordsinContext,以下简称“RiC”)系列标准包括4个部分,即:(1)《背景中的文件—档案著录介绍》(以下简称“RiC-IAD”):简要说明档案著录的原则和目标;(2)《背景中的文件—概念模型》(以下简称“RiC-CM”):说明档案知识模型;(3)《背景中的文件—本体》(以下简称“RiC-O”):采用OWL本体语言描述知识模型;(4)《背景中的文件—应用指南》(以下简称“RiC-AG”):为软件开发商提供在文件管理系统中具体实施RiC-CM和RiC-O的标准指南。法国国家档案馆专门制作了该模型的原型演示系统(在线演示网址为http://piaaf.demo.logilab.fr/)。该系列标准从概念模型的理论建构到语法实施、市场化落地、原型演示都有了相对成熟的依据和指南。其核心是定义了档案信息资源知识模型,该模型的核心是本体,本体就是一个形式化的知识表示,包含领域中的概念实体、属性、关系等元素。
  1.实体
  实体是从领域知识背景中提炼得来的,既可以是实际存在的对象,也可以是抽象的概念。RiC-CM标准定义了4级22个实体,这些实体是从文件和档案工作者的角度,从文件生命周期中提炼的,有助于文件和档案的长久保存、检索利用以及理解所需的必备对象,具体内容如表1所示。

表1 RiC-CM标准本体列表

3.JPG

  从这些实体特点来看:一是以凭证性为目标设计核心实体。其中文件资源、文件实例、主体和业务4个实体为核心实体,这4个核心实体是在确保业务目标完成过程中最重要的凭证,捕获了文件的来源和长久保存背景的关键信息。二是兼容传统标准。这些实体是在《国际档案著录规则》《国际档案规范记录(机构团体、个人和家族)著录规则》《国际档案职能著录规则》《国际档案馆藏机构著录规则》和《文件元数据概念与实施问题》等标准的基础上协调、整合、建设而来的。三是跨领域交换。该模型也充分吸纳其他领域实体,例如时间、地点来自都柏林核心元数据标准,这些实体同时也是传统档案著录标准中强调的主要检索点。同时,该模型实体也整合了图书馆领域书目记录功能需求模型(FRBR)的理念,例如文件资源和文件实例的设计。因此,该模型实体在保持档案领域实体特点的同时,也兼容其他信息领域模型,为跨领域的信息共享和交换打下一致基础。

  2.属性

  属性用于描述实体的特征。属性可以描述实体的内部特征,例如文件实体的语种属性;也可以描述实体的外部特征,例如文件实体的标识符属性等。目前,RIC标准为表1中的四级实体都制定了相应的属性,例如第一级实体事物具有3个属性,即RiC-A16 Descriptive Note(注释)、RiC-A22Identifier(标识符)和RiC-A28Name(名称)。第二级实体文件资源具有7个属性,即RiC-A16Descriptive Note(注释)、RiC-A22Identifier(标识符)、RiC-A28Name(名称)、RiC-A21History(历史)、RiC-A35RecordResourceExtent(文件资源范围)、RiC-A38Scopeandcontent(范围和内容)和RiC-A40Structure(结构)。该模型属性具有以下特点:一是继承。下级实体继承上级实体属性,例如所有二级实体都具有第一级实体的属性。二是拓展。每一级实体除继承上级实体属性外,也发展特色属性。三是语法定义。在RiC-O语法标准中,属性语法定义对以下特殊情况进行处理。其一,不同实体定义的属性存在相同的语义。在这种情况下,这些属性定义为一个属性,其值域指向不同的实体类,例如,RiC-PlanguageInformation(语种信息)属性可以作为RiC-E1Record(文件)、RiC-E3RecordSet(文件集)、RiC-E4Agent(主体)3个实体的共同属性,只需在其值域里进行区分即可。其二,属性的名称相同但语义不同,例如不同实体中都有Type属性,但各Type属性语义和其所属实体相关,并不完全相同。

  3.关系
  关系用于链接实体,从而实现文件档案历史和管理的完整背景网络。与第一、二代模型的等级关系相比,RiC-CM标准定义的关系更接近于图形网络,以文件的关系为例,为传统著录和元数据模型一般定义文件和其所属案卷、类别、全宗的关系,而在知识模型中,除上述关系外,还可以定义文件的792种实体之间的关系,这就增加了使用和维护本体的复杂度。该知识模型在OWL中用166个对象属性定义了这些复杂关系。准确和广泛的定义关系可以支持信息的检索和利用。在标准模型的后续修订过程中,关系实体仍然可能进一步扩展。
  启示
  国际档案信息资源模型的发展本质上发生了3方面的变化:一是对档案信息资源描述更广,前两代模型解决的重点是单个馆藏档案信息资源的描述问题,而伴随档案信息资源共享利用范围的扩大,从单馆利用向多馆利用甚至是语义网利用,档案信息资源模型也必须随之扩展。二是对档案信息资源描述的粒度更细,现代档案信息资源开发利用手段革新,要求对知识进行组织和表达,这些都建立在更细颗粒度的信息资源模型基础之上。三是对档案信息资源描述的理念更趋向于数据视角,尤其是档案、图书情报等领域信息资源模型更加突出融合和一致性,侧重于吸收各领域模型在数据底层模型描述上的共通性。
  1.进化与升级,推动我国档案信息资源模型转型
  从我国档案信息资源模型发展现状来看,目前正处于第二代,第三代模型仍属空白。2009年开始,我国陆续制定元数据标准描述各类档案信息资源,例如《文书类电子文件元数据方案》《录音录像类电子档案元数据方案》等,标志我国形成第二代档案信息资源模型。目前,我国档案领域要探索制定第三代基于本体的知识模型。知识模型也顺应了当前我国档案信息资源管理学科的转型升级,2022年,国务院学位委员会、教育部印发的《研究生教育学科专业目录(2022年)》将原一级学科“图书情报与档案管理”正式更名为“信息资源管理”,信息资源管理学科的发展趋势之一就是更多融合知识管理理论,实现信息资产的增值,原来区分档案馆、图书馆、博物馆和其他文化领域的各种底层模型也在逐步趋于融合,毫无疑问,基于本体的知识模型将加速这种融合。
  2.过渡与趋势,完善档案信息资源模型配套机制
  目前,国际档案信息资源知识模型标准仍处于征求意见阶段,知识模型的制定和应用需要过渡期,一是因为知识模型的应用较传统模型复杂,大量的档案数据集需要标注,关系需要识别。部分档案机构可能缺乏一步到位、贯彻落实的能力。而一旦成功应用知识模型,档案数据集的发布是非常有价值的,能够通过控制词汇集、实体、数据文件或其他RDF资源形成链接和知识网络。档案领域要准备好发布可靠可用的数据集,并配备相应的资源来管理和长久保存这些数据集。
  二是信息系统需要时间和实践适应这种模型。例如,RiC标准模型为在语义网背景下展现、利用、发布和重用档案信息提供了全新的方法。这就需要创建新型档案管理信息系统以便更好地应用这些方法。因此,我国发展新型档案信息资源知识模型至少需要做好标准、系统和人员三方面的配套机制。其一,全力跟踪国际标准最新动态,及时研究和制定标准。从总体趋势上来说,知识模型标准最终可能会完全取代著录和元数据标准,新标准可以吸纳和兼容我国现有著录标准和元数据标准中的实体和属性,并加以升级改造。其二,新型标准需要相关系统配套,档案馆针对庞大的实体和属性集,单纯依靠人力无法解决,大部分实体属性等应由系统直接捕获,或由现有系统捕获的元数据转化而来。其三,新型知识模型需要培养具备知识管理理念的档案工作者,从传统的著录和元数据工作实践向知识管理转变。
  3.开发与利用,探索档案信息资源模型实施应用
  当前,档案资源数字转型全面铺开,但推进人工智能、档案检索、知识发现等技术在档案领域的运用,需要具备更加优质的资源基础。以档案领域应用人工智能为例,其前提是良好、针对性强、数量较大的资源准备,但是目前仍存在数据粒度粗、多停留在文件级、属性描述未下沉到内容或特征层面、数据描述单一、缺乏多维度档案特征揭示等问题。档案信息资源模型的实施应用能为档案工作赋能,比如,基于语义搜索利用档案资源,采用知识模型构建档案信息资源,结合本体推理技术,能够实现对档案资源更加准确和智能的搜索;档案智能问答系统可以根据用户的问题,利用本体推理技术进行语义匹配,得到更加准确和智能的答案;档案智能推荐系统可以根据用户的浏览记录等信息,利用本体推理进行语义匹配,从而提供更加个性化和准确的档案推荐。要实现上述功能,底层都必须对档案信息资源建模进行改造,向知识模型升级。
  参考文献:
  [1]Dunia Llanes-Padrn.Records in Contexts:the road of archives to semantic interoperability[EB/OL].[2024-04-24].http://eprints.rclis.org/31993/1/record-in-context-ontology-paper-revised.pdf.
  [2]ICA Sub-Committee on Descriptive Standards.ISAD(G):General International Standard Archival Description-Second edition[S/OL].[2024-04-24].https://www.ica.org/en/isadg-general-international-standard-archival-description-second-edition.
  [3]国家档案局.电子文件归档与电子档案管理规范:GB/T18894-2016[S].中国标准出版社,2016:8.
  [4]EGAD.Records in Contexts-Conceptual Model[EB/OL].[2024-04-24].https://www.ica.org/sites/default/files/ric-cm-02_july2021_0.pdf.
  [5]EGAD.Records in Contexts-Introduction to Archival Description[EB/OL].[2024-04-24].https://www.ica.org/sites/default/files/ric-iad-02_0_0.pdf.
  作者单位:国防大学政治学院
  责任编辑:王玥