档案文献遗产数据化开发的国外典型案例及启示——以荷兰GLOBALISE项目为例

发布时间:2024-01-12 09:23:31被阅览数:755 次信息来源:《中国档案》

  文/黄霄羽  高艳

  当前5G、工业互联网、人工智能、区块链、云计算、大数据等技术广泛应用,档案工作正在经历从数字化到数据化的转变,档案数据化浪潮兴起,推动档案资源深度开发利用,为档案服务转型升级带来新契机。其中,以开发荷兰东印度公司档案为目标的GLOBALISE项目顺应数据化趋势,档案数据化开发成效显著。荷兰东印度公司档案作为珍贵档案文献遗产在2003年被列入《世界记忆名录》,其档案数据化开发对我国档案文献遗产开发具有一定的参考价值。

  文献研究发现国内文献6篇,国外4篇,相关成果尚不充足。从内容看,现有成果主要涉及荷兰东印度公司档案的内容和项目成果。鉴于已有成果尚未聚焦荷兰东印度公司档案数据化开发,笔者基于文献、案例和网络调研,总结荷兰GLOBALISE项目的特点,从中提取对我国档案文献遗产开发的启示。

  GLOBALISE项目的特点评析

  “收到的信件和文件”(Overgekomen Brievenen Papieren,OBP)系列是荷兰东印度公司档案的一部分,包括500多万页手写文件,涵盖17—18世纪期间,从荷兰东印度公司亚洲总部巴达维亚(今印度尼西亚雅加达)发往荷兰共和国的重要文件,反映17—18世纪整个印度洋和印度尼西亚群岛的历史。

  然而,目前该部分档案的利用和研究存在一定障碍:一是由于笔迹识别困难、时间跨度大等原因,已有的手写文本转录模型(HTR)无法广泛应用。二是新旧荷兰语差异导致档案内容难以理解,如早期荷兰语中“苹果”这一单词的拼写与现在不同,甚至不止一种拼写方式,即使已经转录,非语言学专家的研究者可能仍不知其意。三是档案服务于研究的能力有限,转录文本仅能提供关键词检索功能,研究者在进行关键词搜索后仍需通过浏览、分析和整理等人工操作获取所需信息。

  为满足研究需求,促进档案资源深度开发利用,由荷兰研究委员会资助,惠更斯研究所和荷兰国家档案馆等机构共同合作的GLOBALISE项目开展了一系列工作,包括:改进HTR模型、构建历史参考数据集、开发多功能查询工具,旨在解锁OBP系列档案,开发在线基础研究设施。目前GLOBALISE项目尚在进行中,预计2024年交付研究基础设施的第一个原型,2026年将开放所有工具和数据。

  档案数字化是将档案信息变为可机读和在线传输的“数字态”,改变信息记录和存储方式,便于档案信息的流动与传播。档案数据化则是档案数字化的更高阶段,是通过全文数字化等技术将档案转换为计算机可分析的文本数据后,通过知识提取、关联挖掘等方法提供更加精细化和智能化的产品或服务。不同于档案数字化强调档案存储和传输的“数字态”,GLOBALISE项目聚焦档案内容,旨在通过自然语言处理、知识图谱等技术促进档案信息资源的深度开发利用,呈现明显的数据化特征。笔者借助网络调查和文献分析,分别从档案数据层、平台功能层、参与形式层评析GLOBALISE项目的数据化特点。

  1.档案数据层具有可计算化和结构化特点

  传统档案文献遗产的数字化停留在文件级,难以实现对档案内容的挖掘、研究和分析,如全文检索和关联分析。大数据时代,档案数据化视角下的开发对象已由文件级转向更细化的数据层,对档案数据的结构化程度或可计算性提出更高要求。档案数据化通常建立在计算机可分析、可计算的文本基础之上,GLOBALISE项目在档案数据层呈现出可计算化和结构化特点。

  可计算化是GLOBALISE项目数据层的特征之一。全文数字化是将档案资源转化为计算机可计算、可分析数据的一般途径,也是档案数据化的第一个阶段。GLOBALISE项目重视全文数字化。此前,荷兰国家档案馆的“让冰山可见(Deijsberg zichtbaar maken)”项目(2018—2021)已自动转录约100万份荷兰东印度公司档案。但因时间跨度较大、笔迹识别困难等问题,项目开发的手写文本识别模型无法广泛适用于该公司的所有档案。因此,在已有模型的基础上,GLOBALISE项目应用人工智能技术,训练并构建了适用于公司所有档案的手写文本识别模型,更具普适性,提高了档案转录的准确性和效率。手写文本识别模型的改进推动了全文数字化,为全文检索、关联分析等提供可计算化的档案文本数据。

  档案文本结构化是GLOBALISE项目数据层的又一特点。档案文本结构化是指“在纸质档案数字化扫描成果的基础上进行深度开发,通过对档案图像进行文字识别和语义标注,将档案文本转换为结构化数据,便于计算机自动分析和处理”。GLOBALISE项目在全文数字化的基础上,构建结构化主题数据集。具体而言,项目建立和完善命名实体识别模型,研究和建立商品、地点、政体和度量衡4个主题的数据集,目前已在Dataverse网站中以二维表形式发布共享有关“王国”这一政体和商品价格的结构化主题数据集。结构化档案数据集是档案数据化形成的最初产品,也为知识抽取和关联分析等提供计算机可分析处理的原料。

  2.平台功能层具有关联化和可视化特点

  数据化不同于一般性著录,不仅仅是元数据描述与抽取,更多关注档案内容开发,强调对内容的语义表达、本体描述和关联建设。因此,档案数据化通常带来更加智能化和多样化的功能和服务,满足研究者的深度需求。GLOBALISE项目在平台功能层体现的数据化开发特点为:关联化和可视化。

  基于知识图谱的关联分析。知识图谱技术通过识别档案数据中的实体及事件并构建关联,发掘数据间隐性关系,从而实现知识推理。GLOBALISE项目创建了一个查询器,对档案数据进行语义和语法关联,通过知识推理,实现复杂查询和知识检索。例如,用户如需获得“台湾糖的年产量是多少?”这个问题的答案,需进行关键词检索后再做阅读、筛选并分析后才能获得最终答案,并且一意多词及新旧荷兰文差异对用户的语言素养提出较高要求。而基于关联分析的复杂查询或知识检索能直接回答用户问题,无需用户自行判断。基于知识图谱的关联分析提高了研究效率,丰富了研究视角。

  结果呈现的可视化。可视化技术的应用能更直观、鲜明地呈现档案知识,方便用户理解和研究。如针对荷兰东印度公司货物运输问题的研究,GLOBALISE项目可通过对时间、地图、运输路线的数据化和计算分析,利用可视化技术将货物运输随时间变化的过程动态呈现。可视化技术的应用增加了结果呈现的趣味性和可理解性,改变了结果通过文字呈现的单一形式。基于知识图谱的关联分析和结果呈现可视化也是档案数据化提供更精细化、智能化产品和服务的具体表现。

  3.参与形式层具有公众参与化和交互化特点

  用户在档案数据化开发过程中扮演着重要角色,从前期开发看,用户作为社会力量为档案数据化开发贡献智慧;从后期产品和服务看,强调用户体验和参与感。GLOBALISE项目的开发过程呈现公众参与和交互化的特征。

  鼓励公众参与项目开发。社会公众是档案数据化开发的重要力量。GLOBALISE项目采用招纳志愿者的方式,让感兴趣的读者或专家参与项目审查以完善手写文本识别模型,也采取招纳实习生的方式吸纳项目相关专业的学生参与研究。此外,项目还通过网站向社会征集遗漏档案数据以完善档案资源。公众参与是项目档案数据化开发的重要特征,通过多领域协作和公众参与,吸纳各方资源、技术共促开发。

  注重开发过程中与用户交互。GLOBALISE项目提供的智能化、精细化产品和服务格外重视用户体验和参与感,如采取人机交互、用户交互的方式增强体验与参与感。项目设立专门的项目管理和用户交互团队,在查询器的用户界面中增强交互设计,以友好的界面方便用户使用和研究。

  对我国档案文献遗产开发的启示

  以上分析表明,GLOBALISE项目聚焦档案内容,以档案数据观为导向,应用人工智能技术,通过合作与大众参与等方式走出档案文献遗产深度开发利用的困境,为研究者和利用者提供精细化、智能化的服务。而我国档案文献遗产开发尚处于从数字化转型为数据化的起步阶段,荷兰东印度公司档案作为档案文献遗产的代表,GLOBALISE项目数据化开发的经验可供我国参考。

  1.以档案数据观为导向,聚焦内容开发

  文献研究表明我国档案文献遗产开发现状一是聚焦于档案实体的抢救与保护,包括对档案文献遗产的发现、修复和整理,但开发工作尚未聚焦档案内容,缺乏档案数据观;二是开发深度不足,多停留在数字化开发阶段,尚未达到数据化开发程度,尤其是档案数据的结构化和可计算化处理有所欠缺。如我国南侨机工档案的开发聚焦于档案实体,多为纸质档案的数字化加工,尚未开展内容标引、数据结构化分析等。因缺乏档案数据化意识或能力,导致档案转录及文本结构化不到位,南侨机工档案未能转化为计算机可分析处理的数据资源,问题分析只能依靠人工,开发的深度和效率自然不佳。

  GLOBALISE项目以档案数据观为导向,将荷兰东印度公司档案视为珍贵的数据资源,聚焦档案内容,积极开展全文数字化及文本结构化,将档案文献遗产转化为计算机可分析处理的数据。这不仅利于荷兰东印度公司档案的实体保护,也能促进档案内容的深度开发与利用。

  相比之下,我国档案文献遗产开发整体而言尚未具备档案数据化意识。如我国云南傣文档案文献遗产具有丰富的经济和文化价值,但因缺乏档案数据意识,傣文档案的开发尚处于实体修复与整理,未能进阶到内容的深度开发。这启示我国档案文献遗产开发应增强档案数据化意识,以档案数据观为导向,推动档案实体向计算机可分析的数据资源转化,为档案内容挖掘和知识发现提供原料。

  2.应用人工智能技术,助力多样化功能开发

  2021年11月4日,国家档案局印发《“十四五”国家重点档案保护与开发工程实施方案》,强调要创新档案资源开发利用方式,运用现代技术让档案“走”出来、“活”起来、“亮”起来。但目前我国档案文献遗产领域的技术应用多关注实体保护,如针对坏损、霉变档案的修复技术,微缩胶片、照片档案抢救技术等,面向用户服务的技术应用存在不足。在机器学习、知识图谱、自然语言处理、人机交互等人工智能技术广泛应用的今天,让技术助力服务也应是档案文献遗产开发关注的问题。

  GLOBALISE项目善用人工智能技术,通过关联分析和可视化技术为用户提供知识性、可视化的检索与查询功能,为用户提供了高质量的档案知识服务,真正将荷兰东印度公司历史档案“盘活”。观之我国,档案部门也在逐渐重视应用人工智能技术。如江苏省太仓市档案馆引入智能Agent技术,定期自动扫描馆藏,将文字信息自动分类存入全文数据库中,大大提高了档案全文检索的速度和准确度。案例中人工智能重点应用于扫描和转录,但在多功能开发与服务方面应用的深度和效果仍有待提高。鉴于此,我国档案文献遗产开发应进一步重视人工智能,注重多样化功能开发。既重视技术应用于知识检索等实用功能,如运用关联分析、聚类分析等技术实现智能检索、知识检索等;又重视技术应用在检索结果的呈现方面,如应用知识图谱、计算机视觉等可视化技术丰富查询结果的呈现形式。

  3.提高公众参与度,关注用户需求

  《中华人民共和国档案法》第七条规定“国家鼓励社会力量参与和支持档案事业的发展”。档案文献遗产数据化开发具有规模大、跨学科融合等特点,鉴于档案部门人手有限,更应鼓励公众参与,吸纳社会力量,共促开发。GLOBALISE项目吸纳相关专业的学生参与实习,这启示我国应积极同高校合作,让相关专业的学生群体参与档案文献遗产开发实践。特别对学生来说,这种实习不仅能理论联系实际,还能提高课程思政的效果,学生通过接触珍贵档案文献遗产,进一步增强铭记国家历史、弘扬民族文化与传承社会记忆的使命感。同时,GLOBALISE项目在资源收集、手写文本识别模型开发、文本注释等各阶段均鼓励公众参与,这启示我国档案文献遗产开发应更多吸纳社会力量。事实上,国外已有众多成功的“档案众包项目”,包括英国“边沁手稿转录”项目(2010)、“苏格兰地名转录”项目(2011)、“澳大利亚报纸数字化项目(2018)”等,而我国的众包项目不多,较典型的有上海图书馆的“历史众包平台盛宣怀档案抄录”项目(2016)。因此,我国档案文献遗产开发可参考国外经验,结合实际吸纳社会力量。

  关注用户需求也是档案数据化开发提供精细化、智能化服务的重要原因。GLOBALISE项目关注用户需求,注重界面设计的用户友好,通过交互增强用户体验和提高满意度。国外经验的启示是,档案文献遗产开发应坚持“以用户为中心”理念,创新用户端产品与服务设计,促进服务互动深化,通过多种手段和方式提升服务效能。

  参考文献:

  [1]刘勇.荷兰东印度公司对华直航贸易档案探析[J].海交史研究,2020(2).

  [2]PETRAML,VAN ROSSUM M.Transfoming historical research practices-adigital infrastruc ture for the VOC archives(GLOBALISE)[J].InternationalJournalofMaritimeHistory,2022(3).

  [3]金波,添志鹏.档案数据内涵与特征探析[J].档案学通讯,2020(3).

  [4]祁天娇,冯惠玲.档案数据化过程中语义组织的内涵、特点与原理解析[J].图书情报工作,2021(9).

  [5]The National Archives of The Netherlands.Handschriftherkenning[EB/OL].[2023-03-04].https://www.nationaalarchief.nl/over-het-na/datalab-nationaal-archief/handschriftherkenning.

  [6]赵生辉,胡莹.档案文本结构化:概念、原理与路径[J].浙江档案,2019(12).

  [7]钱毅.在“三态两化”视角下重构档案资源观[J].中国档案,2020(8).

  [8]刘倩倩.我国地方珍贵档案文献的发现途径研究[J].北京档案,2014(11).

  [9]周耀林,刘晗,陈晋雯,等.民族记忆视域下少数民族档案文献遗产保护现状与推进策略—基于云贵地区的调查[J].档案学研究,2020(5).

  [10]华林,杨诗琦,方美林.共建共享视域下的新疆民族档案文献遗产数字化建设研究[J].山西档案,2017(3).

  [11]黄天娇,邱志鹏,于雯青.数字人文视域下南侨机工档案文献遗产开发路径研究[J].浙江档案,2021(10).

  [12]华林,吴雨遥,李婧楠.民族文化传承视角下的云南傣文档案文献遗产发掘利用[J].山西档案2018(2).

  [13]华林,成灵慧,王柳.民族记忆传承视域下的云南傣文宗教档案文献遗产抢救研究[J].北京档案,2018(4).

  [14]魏亮亮.面向数字人文的档案知识服务模式转型探析[J].档案学研究,2021(4).

  [15]中华人民共和国国家档案局.江苏太仓智慧档案管理平台项目通过初步验收[EB/OL].[2023-03-04].https://www.saac.gov.cn/daj/c100202/202112/eeb223db143c477dbbf7bf46f7e5a380.shtml.

  作者单位:中国人民大学档案学院

  责任编辑:周拯民