档案著录信息关联数据化:国际经验与中国路径

发布时间:2024-08-09 19:57:03被阅览数:56 次信息来源:《山西档案》

  文/祝洁 刘越男

  摘 要:关联数据技术已成为档案数据资源开放共享的重要工具。探究档案著录信息关联数据化的国际经验有利于我国档案资源描述的规范化、标准化。以英国LOCAH项目、国际档案理事会RiC-O以及Europeana数据模型为例,对档案关联数据项目和相关数据模型展开调查和研究。基于此,提出我国档案著录信息关联数据应加大档案开放力度,增强对档案资源的语义描述,建立丰富的档案著录数据,加强各方主体协同与资源集成,探索低成本、轻量级的档案著录关联数据化项目。

  关键词:档案著录;关联数据;记录本体;RiC-O;EDM

  2023年2月27日,中共中央、国务院印发了《数字中国建设整体布局规划》,数字基础设施和数据资源体系已成为夯实数字中国建设的两大基础。档案数据资源作为国家数据资源体系的重要组成部分,其开放共享与价值发挥尤为关键。虽然我国档案界一直在积极探索档案数据资源开发利用的创新路径,但资源整体仍处于缺乏语义关联、较为封闭的状态,不利于在新环境下揭示档案知识、提高档案资源的利用价值。关联数据作为集理论、方法、工具和数据为一体的最佳实践[1],有助于实现档案数据资源的语义化组织,并为其广泛共享提供了新的解决方案。2010年以来,英国国家档案馆、澳大利亚国家档案馆、美国档案与文件署等机构相继利用关联数据技术将档案资源以RDF格式发布,并开发了基于关联数据技术的API接口。然而,较之于国际档案界对关联数据应用的深入探索,国内档案界实践进展缓慢。尤其在关联数据的创建和应用过程中,档案著录信息向关联数据的转换成为亟待解决的现实痛点。档案关联数据中最应该作为数据源的是档案著录(广义)相关记录信息,这是因为档案著录是满足利用者检索需求策略最有意义的工具[2]。如何在关联数据框架中复用现有档案元数据,实现档案著录信息向关联数据的转换?这一问题值得深入探究。本研究立足于国际档案界关联数据项目及数据模型,归纳总结档案著录信息关联数据化的成功经验,探寻推动关联数据应用的具体路径。

  1  国际档案界档案著录信息关联数据化的实践路径

  迄今为止,国际档案界实施了一系列关联开放数据项目,其中档案著录信息转化关联数据的相关实践项目有回忆(Recollection)、美国编年史(Chronicling America)、ReLOAD、LOCAH、20世纪新闻档案馆(20th  Century  Press Archives)项目、意大利心理学数字档案馆等。以上项目开展档案著录信息关联数据化的实践路径可归纳为三种:一是将传统档案著录元数据元素直接映射到关联数据属性和词汇表,如英国LOCAH项目及其后续项目Linked Lives;二是基于现有内容标准建立档案领域的数据模型,并支持传统档案著录格式的转换和元素映射,如国际档案理事会《背景中的文件》(Records  in  Contexts,RiC)系列标准的本体部分RiC-O;三是建立文化遗产领域通用的顶层数据模型,强化本体的通用性和互操作性,如Europeana数据模型EDM等。

  1.1 将档案著录信息直接映射到关联数据模型

  1.1.1 实现路径

  将档案著录信息直接映射到其他关联数据模型主要利用XSLT(Extensible Stylesheet Language Transformations)样式表来实现。XSLT采用基于模式匹配和选择器的方式来查找XML文档中的元素和属性,从源XML文档中提取数据,将其转换为目标文档。XSLT提供众多转换函数和运算符,以便对提取的数据进行处理和变换。它采用基于模式匹配和选择器的方式来查找XML文档中的元素和属性。在XSLT中,样式表由XSLT指令组成,这些指令用于描述如何从源XML文档中提取数据,并将其转换为目标文档。此外,这种将档案著录数据转换为关联数据RDF/XML的方法与FOAF、SKOS、RDFS和DublinCore等标准相衔接,易于理解和复用,任何机构或个人都可以利用它将EAD形式的档案著录数据转换为关联数据RDF/XML。

  1.1.2 典型案例——英国 LOCAH 项目

  英国非营利性组织——英国联合信息系统委员会(Joint  Information  Systems  Committee,JISC)于2010年8月资助了LOCAH项目(Linked  Open  Copac  and  Archives  Hub),它是JISC“信息环境”系列项目之一。项目的总体目标是“重复使用公开数字内容”,具体目标是将EAD中的元素映射到现有的关联数据属性和词汇表,以便将图书、档案等资源集合转化为关联数据,使其有益于英国的教学、科研、管理和知识迁移[3]。该项目将作为一个具有指导意义的蓝本探索其中的机会和障碍。项目工作人员来自UKOLN、Mimas、EduServ和Talis,拥有Linked Data、编程、图书馆和档案数据等方面的专业知识。LOCAH项目将1  000份来自档案中心(Archives  Hub)的记录和5  000份来自英国联合目录(Combined Online Public Access Catalogue,Copac)的记录作为关联数据的对象。档案中心提供的记录来自英国各地档案存储库的档案元数据集,Copac提供的记录来自英国各地图书馆的合并图书目录[4]。图书的编目数据并非MARC格式,而是Copac特定版本的MODS XML,档案编目数据则是XML语言编写并保存为EAD的记录。该项目于2011年结束,Linked  Lives项目(2011—2012年)作为其后续项目展开,它的主要目的是探索呈现关联数据的方法,为ArchivesHub和Copac数据的子集创建关联数据。

  LOCAH项目开发了Archives  Hub  EAD  to  RDF  XSLT  样式表[5],并且提供了将档案著录数据转换为关联数据RDF/XML的具体步骤。LOCAH元素集仅处理EAD的一部分,并引入了有助于馆藏档案数据转换为关联数据的其他元素。在元素映射过程中,当现有词汇表无法恰当地表示概念时,项目组定义了所需的其他类和属性并提供URI作为小型LOCAH RDF词汇表。Archives Hub EAD to RDF XSLT样式表转换过程如图1所示。

1.jpg

图 1 Archives Hub EAD to RDF XSLT样式表转换过程

  1.2 建立档案领域的数据模型

  1.2.1 实现路径

  为了适应国际资源描述的发展趋势,国际档案组织着力构建新的更具语义表达性的档案资源描述标准,以便在标记档案实体时以机器可理解的方式添加语义元数据。新标准对实体进行建模,为创建RDF数据集定义了受控词汇表以及能够描述任何类型档案资源及其背景实体的规则,并可使用SPARQL查询。新标准为档案领域创建RDF数据集提供了通用词汇表和正式规则,这些规则以一致的方式描述各类档案资源及其背景实体。因此,它也可以被视为面向语义组织的档案资源描述参考模型。如RiC-O作为国际档案理事会RiC系列标准中的本体部分,用于描述档案资源及其背景实体。RiC系列标准是由国际档案理事会档案著录专家组负责领导和实施的一项工作,主要包括四个部分:档案著录标准简介(RiC-IAD)、概念模型(RiC-CM)、本体(RiC-O)、应用指南(RiC-AG)。概念模型(RiC-CM)部分,主要在综合现有ISAD、ISAAR、ISDF、ISDIAH等标准的基础上,提取文件著录的共性实体对象,分析其特征属性及关联关系,进而构建文件概念体系[6]。RiC-O运用OWL本体语言对文件实体及其关系进行语义描述,是RiC-CM的具体实现。RiC-O提供了使用关联开放数据技术进行档案资源描述的方法和路径,将档案元数据集发布为关联数据;它依据RiC-CM的概念体系定义了一组完整的类和属性,汇集到统一的本体中,形成一个全新的档案关联数据框架。自2020年3月以来,RiC-O源文件以及早期版本已在GitHub上的公共Git存储库中提供,RiC-O1.0正式版本已于2023年12月30日发布。

  以RiC-O0.2为例,其实体、属性和关系的具体解释如下:

  (1)实 体(Entity)。RiC-O中的实体按层次进行分组,首先是根实体和事物;其次是著录档案所关注的核心实体,如文件资源、实例化和代理,以及支持性实体,如事件、规则、日期和地点;最后是第三、第四级实体,包括活动和授权实体。此外,实体中有四个核心实体:文件资源实体、实例化实体、责任主体实体和活动实体,如图2所示。对这些实体的描述如事件、规则、日期和地点等,记录了文件的起源及其发展变化的历史,而且智能化地保存了文件原始的和发展变化的背景信息,对于全面描述核心实体非常重要。

2.jpg

图 2 RiC-O的核心实体概念模型

  (2)属性(Attributes)。属性用来表达实体的特征。只有描述出实体的属性以及该实体与其他实体的关系,才能表达实体的显著特征。RiC-O0.2中的属性既包括实体固有的特征,如文件所使用的语言、签章、载体类型等,也包括著录者赋予的属性,如与文件一一对应的特定标识符。目前,RiC-O0.2中规定了22个属性类别(RiC-E01—RiC-E22)。RiC-O0.2把词表中一些特定的概念类别(例如主题、职业或活动类型等)作为实体而非属性。因为这些概念可以用来创建重要的通用主题词表,例如活动类型、职业类型等,在开放的关联数据环境中,这些词表能够实现相互链接的分散描述和访问服务。

  (3)关系(Relations)。关系的作用是描述实体之间的联系,从而表达档案文件的历史及管理的重要特征。RiC-O0.2用13种关系类型来描述和记录文件资源创建、积累和管理的背景,以便于文件的制作和保存。RiC-O0.2中所有实体之间的79种关系描述如“Whole-part relations”(整体部分关系)、“Sequential relations”(顺序关系)等,都符合13种关系概念中的一个或多个类别。

  1.2.2 典型案例——法国档案馆 PIAAF 项目

  “法国档案馆互操作试点”(Pilot  for  Interoperable  Archival  Authorities  in  France,PIAAF)项目是由法国国家档案馆、法国档案部和法国国家图书馆共同合作的档案元数据语义化和可视化实验项目。该项目是RiC-O的第一个实践应用案例,旨在证明将语义网技术应用于档案描述的现实可行性,探索语义网技术是否可以准确表示、相互链接和可视化已有的档案元数据集。项目团队选择了RiC-O作为将选定的档案元数据集转换为RDF的参考模型。2017年底,PIAAF的用户界面经测试后正式上线。

  在将档案元数据集转换为RDF的过程中,首先,项目定义了“档案制作实体的行动领域或对象”“档案制作实体的活动”两个词汇表,并且为项目实施准备了涵盖276条XML/EAC-CPF记录和38条XML/EAD检索工具的语料库;其次,项目只选择使用RiC-O标准中部分较为稳定的实体元素,包括“person”“event”“record”“place”等14个实体;再次,项目开发了一组XSLT脚本,可以按照设定的转换顺序(职能、法律地位、事件等)将档案元数据集转换为XML/RDF文件;最后,转换后的XML/RDF文件会作为各自独立的对象保存,每个文件夹都会保存某一类实体的所有RDF文件。该项目的成功实践为档案元数据语义化操作以及数据集的可视化和导航服务提供了范例。

  1.3 建立通用的顶层数据模型

  1.3.1 实现路径

  近年来,国际范围内开展了一些基于图书馆、档案馆、博物馆等机构的数字文化资源整合项目,建立了共享性公共文化服务平台。LAM资源整合首先要解决元数据标准不统一的问题,需要建立开放、跨领域的数据模型进行统一组织与管理。这类面向关联数据的数据模型是一种构建和表示图书馆、档案馆、博物馆等机构数据资源的规则,以实现对跨领域异构元数据的集成与关联。数据模型本身建立在RDF(S)、OAI-ORE、SKOS和Dublin  Core等既定标准之上,充当通用的顶层本体,保留原始数据模型,并允许其他来源信息对数据进行补充;同时,通过与LIDO、EAD、MARC等现有元数据标准建立关联实现其互操作性。

  2005年,欧洲19个国家联合创建欧洲数字图书馆的数据模型(Europeana  Data  Modal,EDM),旨在描述Europeana平台上数字化文化遗产的数据结构和关系。EDM基于Linked  Open  Data原则,允许不同机构之间共享数据并建立关联,支持数字文化遗产的开放性、透明度和再利用。它提供了通用、跨文化的数据模型,并为用户提供统一的访问接口,使欧洲联盟机构之间能够共享数字文化遗产。

  EDM的原始模型Europeana语义元素(Europeana  Semantic  Element,ESE)是以DC为核心的扁平结构,EDM在保留ESE核心元素的同时增加了分类和属性来描述、组织资源。2017年10月发布的EDM数据模型包含七个类,数字化资源对象(ProvidedCHO)、网络数字资源(WebResource)、聚合关系(Aggregation)三个核心类描述文化遗产对象,以及责任主体(Agent)、地点(Place)、时间范围(TimeSpan)和概念(Concept)四个类描述和对象相关联的背景信息。EDM数据模型中的每个类又包含若干属性,例如核心类ProvidedCHO下面包含创建者、出版商、题名、时间、格式、语言等25项属性,包括强制、推荐和可选三种类别。这些属性使用控制词表提供的概念词汇进行规范描述,实现资源对象与相关的事件、地点、时间等具体情境信息的关联[7]。EDM主要属性的层级结构描述了四种资源关联关系,即聚合结构关系、资源对象间的关系、事件情境关系和资源对象主题的关联关系。每种关系又包含数个关系属性以提供详尽描述,如事件发生的主题(was  PresentAt)、事件发生的场所(happened At)、事件发生的时段(occurredAt)等属性提供了资源对象参与不同事件的具体情境信息,而主题(dc:subject)、类型(hasType)、实现(realizes)、关联(dc: relation)等属性描述了资源对象主题相互关联的特征[8]。

  1.3.2 典型案例——欧洲数字图书馆 Europeana

  欧洲数字图书馆作为一个数字化文化遗产平台,为人们提供来自欧洲各地文化机构的数字化藏品。目前,已有来自欧洲的图书馆、博物馆、档案馆、美术馆等4  000多个机构参与其中,数百万件文化遗产可通过Europeana网站在线获得[9]。Europeana发布的关联数据量已经超过240万条,资源类型包括文本、图片、音频、视频、动画等,资源内容涵盖传统的书目记录及维基百科描述、用户标签与评论等。

  Europeana设计的EDM数据模型提供了一种可行的方法来表示EAD中相当复杂的元数据结构,可以使不同级别的信息粒度以可互操作的方式共存。首先,参照《欧洲数据模型映射纲要》和OAI元数据收割协议,将不同来源、不同类型和不同格式的元数据(MARC、EAD、LIDO、TEI等)与ESE建立映射,借由元数据互操作实现ESE核心元素的语义扩展,构建基于元数据规范的语义化核心元数据本体;其次,利用ESE2EDM转换脚本,将ESE生成的核心元数据本体映射转化为基于EDM数据模型的元数据本体,获取符合EDM规范的数据集;最后,利用XSTL将数据集转换成XML,生成符合RDF/XML描述规范的语义元数据,实现异构元数据的语义融合[10]。

  总之,国际档案界积极推进关联数据的应用,以既定的档案著录标准和实施情况为基础,为档案界提供了使用关联数据技术进行档案描述的能力。但是,它们在实践中仍遇到一些难题,如在将档案著录信息直接映射到其他关联数据模型的过程中,很难对源自EAD层次结构的数据进行建模,导致复杂概念的同质化和数据缺失;图书和档案的著录标准在实践中只是指导方针,在每个机构中的具体实施方式不同,导致部分元素的映射并不准确;部分特定的档案著录数据与现有关联数据词汇表无法对应,或者相似概念的含义和外延并不相同。例如,“creator”和“originator”,既可能指代同一实体,也可能指代完全不同的实体或多个实体(“originator”包含创建者、收集者或利益相关者等多层含义)[11];开发新的数据模型面临各种技术、时间和资金方面的问题,需要更多国家的档案机构将其广泛应用。

  2  我国档案著录信息关联数据化的路径选择

  2.1 道以明向——加大档案开放力度

  开放互联是关联数据的核心要义,开放的档案数据是实现关联的前提。关联数据的发明者Tim  Berners-Lee描绘关联数据的发展前景时强调,要将We b从链接文档的全球信息空间发展为链接文档和数据的空间,即数据网络。虽然新修订的《中华人民共和国档案法》将档案开放期限缩短至25年,要求档案馆提高开放档案比例,但是在实际工作中,档案开放率并不尽如人意。依据《全国档案事业基本情况统计年报》,我国各级国家档案馆近十年的档案开放率基本维持在14%~21%。因此,应加大档案开放力度,为档案数据资源进一步融入全球数据网络创造前提。

  2.2 法以规制——改进档案资源描述标准

  改进档案资源描述标准是推进档案著录信息关联数据化的关键步骤,通过实体、属性与关系的定义实现对档案更为详尽、细粒度化的描述。虽然新版《档案著录规则》(DA/T 18—2022)对著录项目、术语和附录等做了修订,但是最低层级的著录仍以文件为单位,使用主题词、分类号或摘要等项目描述档案内容特征,总体呈现为粗粒度的语义构建形态。因此,应对档案资源描述标准进行改进,利用主谓宾RDF三元组构成语义关联最小的结构单元,丰富的链接种类和数量能够使语义关系表达更精细、明确。著录内容不仅包括针对实体本身的纵向多级著录,还包括与实体相关的责任者、职能业务等实体及其属性、关系,勾勒出资源本身的丰富层级和资源之间的关联关系。在构建本体的过程中,一方面,为增强本体的语义精准性,制定实体类与属性的命名规则,结构化地定义本体的语义要素,形成本体的语义词典[12];另一方面,为确保本体的通用性和跨领域协调性,应注重集成和复用国内外现有标准[如ISO30300系列、ISO16175、ISAD(G)等]及其相关元素,确保其能够兼容图书馆、博物馆等多种领域标准。

  2.3 术以利策——促进主体、资源、工作流的协同与集成

  在国际档案著录信息关联数据化的实践中,往往通过实施配套项目和措施,促进多主体相互协作,资源共建,优化工作流程。例如,美国斯坦福大学为推动关联数据生产项目,组织其采购部门、数据部门和数字图书馆服务部门举行了系列关联数据生产项目会议,创建并行LOD处理流,以更好地过渡到关联数据生产环境。具体来说,首先是多元主体的协同合作。在档案著录信息关联数据化的过程中,应加强与博物馆、图书馆、艺术馆、文化遗产机构以及高校等数字资源收藏机构的合作,共同制定和发布相关标准、实例和工具,起草有关政策和实施措施。其次是跨领域资源的协同共建。档案领域相关元数据要与图书、文物、非遗、艺术类资源元数据实现共建共享,实现对各类数字资源的充分发现与揭示,构建面向世界的、跨领域的文化资源数据空间[13]。最后,合理构建关联数据生产流程。将传统著录工作流程集成和映射为关联数据生产流程,依据各流程节点的需求,评估新数据模型的配置文件和操作流程。

  2.4 器以立本——夯实档案著录信息基础

  开展和实施关联数据项目的基础不在于开发新的数据模型,而在于是否具备丰富翔实的档案著录信息作为数据源。档案著录是关联数据应用于档案领域的关键环节。关联数据将档案置于更广阔的背景中,描述其内容语义、价值以及被创建和维护的过程。只有对档案进行全面准确地著录,才能使关联数据的创建、发布和重用得以实现,将档案内容带入关联数据提供的更广泛的知识生态系统中。在具体操作层面,需要合理划定档案著录信息转换为关联数据的范围。并非所有的档案著录信息都有必要转换为关联数据,应从关联数据的应用优势出发予以选择。着重将档案概念、资源内容和背景信息等描述性、结构性元数据表示为关联数据,如利用现有的关联数据模型和本体表示保管历史或实体(如家庭或法人团体)之间的复杂关系等。

  2.5 势以利导——探索低成本、轻量级档案关联数据项目

  是否应用及如何应用关联数据项目需要综合考虑用户需求、资源基础、人力及经费等多方面因素,尽量选择低成本、轻量级的档案关联数据项目。国内档案界可借鉴已有的国际经验,通过改进和增强现有元数据标准的映射以及复用成熟元数据标准来构建新的元数据模型,以促进档案关联数据的实现。第一种方式为借助EAD to RDF XSLT样式表工具将现有档案著录数据转换为关联数据RDF/XML,无法表达或映射的著录级别或者物理特征、版本等重要元素可以添加新的类或属性。在词表映射标准方面,参考国外已有标准和规则,从映射方式、映射规则等方面进行规范。第二种方式为复用现有成熟元数据标准元素,构建支持档案资源语义描述与组织的新数据模型。例如,RiC-O1.0作为ICA最新发布的稳定、完整的本体,支持已有的ISAD(G)、EAD、DC等元数据标准及相关元素的集成和复用,可为我国构建档案领域新的数据模型提供借鉴与参考。

  3  结语

  本研究立足于国内档案资源描述的现实需求,对国际范围内档案著录信息关联数据化方法进行了较为全面的分析。研究发现,国际档案界对面向关联数据的档案资源描述在模型设计方向、语义描述深度、兼容规则、机构合作等方面体现出诸多创新之处。而对于国内档案界,这一问题的理论研究尚处于探索阶段,实践应用也面临诸多难题,如国内档案著录工作既非遵循ISAD(G)和EAD,2022年新发布的《档案著录规则》也并未涉及本体构建。如何在现有基础上适应关联数据环境,促进资源描述与共享?但不可否认的是,档案著录信息关联数据化有利于实现档案数据之间的逻辑关联和知识组织,是实现智慧档案数据资源建设、融入数字中国国家数据资源体系的必然需求。因此,国内档案界应立足于我国档案著录工作现状,借鉴国际经验,改进档案资源描述标准,加强资源链接,构建语义互联、可复用的高质量档案数据资源体系。

  参考文献

  [1]赵夷平.基于关联数据的机构知识库资源聚合与知识发现研究[D].长春:吉林大学,2018.

  [2][12]段荣婷,夏子涵,王昊.档案著录关联数据化实现研究[J].档案学研究,2021(4):100-110.

  [3]Ahep.Fake  Degrees,Visa  Mills  &  Identity  Fraud:how  Jisc  are  protecting  UK  graduates,  universities,and  employers[EB/OL].(2021-3-23)[2024-04-08].https://ahep.ac.uk/jisc-blog/.

  [4]A drian Stevenson.LOCAH Project:Creating Archival Linked Data Since2010[EB/OL].(2012-04-30)[2022-11-20].http://locah.archiveshub.ac.uk/page/2/.

  [5]J ISC.Ead2rdf-nons.xsl[EB/OL].(2013-08-08)[2022-11-23].http://data.archiveshub.ac.uk/xslt/ead2rdf-nons.xsl.

  [6]段荣婷,马寅源,李真.国际文件/档案著录标准化前沿与趋势展望:基于国际最新著录标准ICA  RiC的研究[J].档案管理,2018(1):28-35.

  [7][8]王萍,黄新平.基于关联开放数据的数字文化资源语义融合方法研究:欧洲数字图书馆案例分析[J].图书情报工作,2016(12):29-37.

  [9]E uropeana.Europeana  Foundation[EB/OL].(2022-11-21)[2024-04-08].https://pro.europeana.eu/about-us/foundation.

  [10]Livia  Predoiu,Steffen  Hennicke,Andreas  Nürnberger,et  al.Proceedings  of  the  1st  International  Workshop  on  Semantic Digital Archives[EB/OL].(2011-09-29)[2022-11-20].https://ceur-ws.org/Vol-801.

  [11]Adrian  Stevenson.LOCAH  continues  as  the  Linking  Lives  Project[EB/OL].(2012-04-30)[2022-11-22].http://locah.archiveshub.ac.uk/.

  [13]张福俊,高雪,周秀霞.国内外数字资源发现平台比较研究:以Trove、DPLA、Europeana、WDL和文津搜索为例[J].国家图书馆学刊,2018(1):86-96.

  【基金项目】中国人民大学科学研究基金项目“中国红色文献档案资源库建设”(项目编号:22XNLG11)。

  【作者简介】祝洁(1981—),女,汉族,河南商丘人,郑州航空工业管理学院信息管理学院副教授,博士在读,研究方向:电子文件管理、非物质文化遗产档案管理;刘越男(1974—),女,汉族,江苏滨海人,中国人民大学信息资源管理学院教授、博士生导师,博士,研究方向:电子文件管理、数字档案馆、数据治理。