知识图谱在档案领域的研究与应用

发布时间:2024-04-04 19:22:22被阅览数:399 次信息来源:《四川档案》

  □吕晨曦   蒙艳姿   吴昊天

  如何对档案数字资源进行使用和管理,充分挖掘档案价值是档案信息数字化的重要课题。随着计算机技术的发展,国内外档案学领域均展开了在档案智能检索和档案全文信息化领域的研究。其中,知识图谱在档案管理中的应用便是众多研究中的重要方向之一。越来越多的档案部门和学者专家逐渐意识到仅以档案原貌呈现的档案利用方式的不足,尝试构建档案相关知识图谱,利用档案数据资源开展知识服务。

  1   文献调研

  笔者以“知识图谱”+“档案”为检索词,在中国知网数据库中以篇名为检索途径进行高级检索,共得出84篇中文文献,包括中文学术期刊论文74篇,学位论文10篇(检索截止时间为2023年9月17日)。分析得出以下几个特点。

  (1)从2010年起国内学者开始关注知识图谱与档案的关系。近五年,档案领域的知识图谱应用研究热度逐渐升高。

  (2)通过对84篇论文的相关主题进行分析,发现研究者更关注“可视化”“知识抽取”“档案数据”“研究本文系国家档案局2022年科技项目“城市建设和自然资源档案管理知识图谱实证研究”阶段性研究成果。热点”以及“数字档案馆”等内容,贴合档案管理和数字档案馆发展实际。

  (3)目前研究知识图谱与档案的单位主要以高校(6个)为主,科研院所(2个)、档案管理部门(1个)、公司(1个)相对较少。作为档案管理实践探索前端的档案管理部门对知识图谱在档案领域的应用做出了积极的探索,但从论文成果上来看还有很大的应用研究空间。

  (4)共有19篇论文来源于基金项目,在所得论文中占比约23%,可看出该研究方向具有一定价值和意义。

  根据文献调研发现,现有知识图谱档案管理研究对象和研究程度都还很有限。一是由于档案资源的特殊性,不同行业、不同领域的档案资源内容区别较大,现有研究内容多为通用知识图谱,对象多为泛在化的档案资源,而利用知识图谱等语义技术开展专业领域的档案管理研究不多,利用特有知识搭建领域知识图谱的范本较少[1]。二是现有研究中的领域档案知识图谱关联关系主要围绕档案资源的题名、关键词、组织机构、责任者、主题等外部特征建立[2],对档案资源知识层面的数据的挖掘与管理程度还不够,在特色领域档案资源的语义组织与智能管理方面仍有很大的研究空间。

  2   实地调研

  近期,笔者前往南宁、深圳、重庆等城市进行实地调研,学习档案领域知识图谱管理应用模式优秀做法。

  2.1   南宁市城市建设档案馆

  南宁市城市建设档案馆与南宁市勘察测绘地理信息院联合完成1项国家级科技项目——“基于时空数据的智慧城建档案知识图谱构建及应用服务体系研究”。项目旨在研究并构建基于时空数据的智慧城建档案应用服务体系、数据库和一体化服务平台。项目已形成以下成果:(1)完成《城建档案数据采集标准》的编制(该标准为广西工程建设标准化协会的团体标准)。(2)完成4平方公里试验区范围的档案提取、挂接工作,并计划按每年4平方公里持续推进档案数据提取和挂接。(3)形成《南宁市城建档案知识图谱系统设计方案》。(4)开发南宁市城建档案知识图谱服务平台系统,并编写《用户手册》。(5)公开发表论文2篇,分别是《基于GIS和BIM技术的城建档案大数据平台设计与实现》《智慧数据视域下的数字人文领域知识图谱-研究进展与未来趋势》。(6)培养中级人才2名,高级人才1名。

  2.2   深圳市档案馆

  深圳市档案馆与南京烽火星空通信发展有限公司合作开展国家级科技项目——AI技术驱动下档案信息知识服务模式研究。该项目由南京烽火星空通信发展有限公司提供技术支持和咨询服务,开发构建了一套知识图谱应用演示系统,形成相关研究报告,成功申报1项技术专利并在核心期刊发表论文2篇。

  2.3   重庆市档案馆

  重庆市档案馆正推进基于知识图谱的智慧档案服务技术研究项目应用,目前研究成果如下:(1)智慧档案视角下档案知识化及智慧化服务的范畴、必要性及目标任务。(2)剖析基于知识图谱的智慧档案服务的技术框架。(3)构建档案知识图谱及智慧服务建设的指标体系。(4)探索档案知识图谱及智慧服务在解放军档案馆的落地实践。(5)形成1个软件著作权。

  3   调研思考

  3.1   困难与困境

  知识图谱构建和应用方面。通过调研发现,档案领域知识图谱应用推进中主要存在以下三个难题:一是非结构化数据的识别提取难度较大;二是手写型数据识别率较低且需辅以大量的人工干预予以校准,打印型数据识别率相对高一些,总体需耗费大量人力财力;三是从城建档案方面来看,由于此类专业档案包含图纸类、手写体类资料较多,资料数据类型复杂,非结构化数据占比较大,知识图谱构建难度更大,应用场景较为局限,研究成果难以投入需适应海量城建档案数据需求的实际应用。

  3.2   启发与思考

  3.2.1   明确目标数据范围

  鉴于非结构化数据提取难度较大、成本较高,可以分步骤按范围推进知识图谱的构建,优先打通知识图谱应用路径,形成可视化模型,再逐步扩大数据范围,最终实现馆藏档案知识化管理。南宁市城市建设档案馆即通过分批次逐步推进数据提取和挂接,第一批以4平方公里内的项目档案为目标数据。

  3.2.2   规范数据提取类型

  以城建档案为例,由于各地城市建设方面的行政审批要件和流程略有不同,形成的档案资料内容也有一定差异,可结合地方实际和收管用需求,进一步明确和完善建设工程项目档案提取数据类型,即确定项目档案的“身份证”信息要素。南宁市城市建设档案馆编写形成《城建档案数据库标准》,设定数据采集标准,明确数据采集内容,具体包括字段名称、单位、数据主要来源、字段类型、字段长度等内容,形成了具体可行的采集规范。

  3.2.3   探索更多应用场景

  知识图谱可视化应用能满足新时代档案管理高效智能的发展需求。可围绕档案开发利用、政府决策、社会治理等探索更多知识图谱应用场景,提升档案管理水平和档案资政能力。重庆市档案馆实现档案智慧服务模式和技术,以档案用户需求为中心,主题编研等场景为方向,探索全自动化、一体化、远程式、智慧化的档案资源利用。深圳市档案馆通过知识图谱建立领导人事件关系轴、领导人事件伴随关系轴和事件图谱等应用体系。以城建档案为例,还可探索从档案角度助力城市建设精细化管理。南宁市城市建设档案馆项目已实现多级数据关联分析、智能问答、异常检测分析、关联企业合理性检测、楼栋安全性检测等多场景应用。

  3.2.4   强化多个项目支撑

  强化知识图谱应用项目与其他档案业务项目之间的关联关系,从而达成科技项目、标准编写、系统开发以及其他专项工作之间互为支撑、同向出力。深圳市档案馆项目为独立开展,数据识别和提取类型丰富,同时聚焦文本、图像、视频等多种类型数据。但该项目无其他项目互为支撑,人力财力资源稍显不足,推进存在一定困难。南宁市城市建设档案馆通过多项目共同支撑,夯实数据基础,确保档案知识工程多年度持续投入,同步编写形成团体标准《城建档案数据库标准》,立体推进知识图谱研究与应用。

  参考文献

  [1]林强.知识图谱在档案学中的应用综述与评价[J].档案与建设,2014(11):5.DOI:10.3969/j.issn.1003-7098.2014.11.003.

  [2]翁冬婷.知识图谱在我国档案学研究中的应用现状与评价[J].黑龙江档案,2017(1):2.DOI:CNKI:SUN:DAHL.0.2017-01-021.

  本文系国家档案局2022年科技项目“城市建设和自然资源档案管理知识图谱实证研究”阶段性研究成果。

  作者单位:成都市城市建设和自然资源档案馆