数字人文视域下的档案知识库建设:问题与前瞻

发布时间:2024-09-10 19:25:34被阅览数:50 次信息来源:《山西档案》

  作   者:岳娜

  摘   要:随着数字技术的快速发展,数字人文为档案学研究注入了新的活力,档案知识库建设逐渐成为数字人文时代档案学研究的重要议题。分析档案知识库建设现状、困境以及机遇,并遵循数字人文理念,细致阐释档案知识库的应用服务创新,深入探究档案知识库建设的未来发展趋势。

  关键词:数字人文;档案知识库;档案知识库建设;档案知识服务

  随着现代信息技术与移动互联网的不断发展,数字人文的兴起为档案学研究注入了新的活力。作为一种跨学科研究范式,数字人文充分利用计算科学与数字技术,为人文学科的研究对象、研究方法及知识生产方式带来深远影响和深刻变革。2022年5月,中共中央办公厅、国务院办公厅印发《关于推进实施国家文化数字化战略的意见》,提出“建成物理分布、逻辑关联、快速链接、高效搜索、全面共享、重点集成的国家文化大数据体系,中华文化全景呈现”[1]。在大数据、人工智能、云计算、区块链等新兴技术的推动下,数字人文为档案资源的整合与开发、档案知识的组织与发现、档案服务的创新与优化提供了广阔的发展空间。档案知识库是通过对档案资源的数字化处理、系统组织和科学管理实现对档案信息深度挖掘和知识化应用的一种综合系统[2]。它的核心任务是通过语义化的知识组织和关联,增强档案资源的知识发现能力,提高档案资源的利用效率,促进档案资源的广泛传播和深度应用,为用户提供智能化、精准化的知识服务。档案学与知识工程有着理念契合之处,本体论为档案知识库构建提供了理论范式,语义网技术为档案知识库构建提供了规范标准[3]。

  1  档案知识库建设的困境与机遇

  1.1 档案知识库建设面临的主要问题与挑战

  1.1.1 档案知识资源整合利用不足

  档案馆的数字化进程参差不齐,存在资源分散、标准不一等问题。部分珍贵档案尚未实现数字化,大量数字档案也缺乏规范的著录、主题标引,难以纳入统一的知识库进行关联利用[4]。此外,档案馆、图书馆、博物馆等文化机构的知识壁垒尚未打通,多源异构的人文知识资源尚未实现深度融合,档案知识孤岛现象依然突出。

  1.1.2 知识挖掘与知识关联技术尚不成熟

  档案知识具有非结构化、碎片化的特点,需要从海量档案文本、图像等资源中准确提取核心知识元素,揭示元素间的语义关联。目前常用的命名实体识别、关系抽取等技术在档案领域应用时,面临知识特征表达不充分、知识推理能力不足的问题,尤其对于隐喻性语言、古文字的理解能力有限[5]。此外,档案知识具有显著的时空特征,融合时间、空间等多维语义,有待进一步构建具有动态演化功能的知识图谱。

  1.1.3 档案知识库标准规范亟待统一

  档案知识库建设涉及档案目录、元数据、主题词表、本体库、数据交换格式等诸多标准规范。当前尚未建立统一的档案知识组织与服务标准体系,多数档案馆的知识库自成体系,缺乏互操作、共享与协同机制[6]。部分档案知识库过于依赖特定软件系统,缺乏开放接口,难以实现与其他系统的对接与融合。此外,档案知识服务缺乏科学合理、系统完备的质量评价指标,难以科学、精确地评估知识库的建设成效与应用效果。

  1.1.4 人才队伍建设水平相对滞后

  档案知识库建设需要档案学、计算机科学、语言学、历史学等多学科人才合力参与,协同攻关。当前档案人才培养体系还不够健全,跨学科知识的融合还不够充分,缺乏档案知识与数智技术兼备的复合型、创新性人才。现有档案从业人员普遍缺乏数字人文素养,对知识工程、语义技术的认知与掌握不足,数字化技能有待提升。此外,档案部门与高校、科研机构的人才交流与联合培养机制尚不完善,没有贯通和落实产学研用一体化的培养模式,制约了跨学科人才团队的建设。

  1.2 数字人文研究范式革新对档案知识服务的新要求

  第一,数字人文强调跨学科数据融合与分析挖掘。要求档案知识库构建开放互联的知识网络,通过本体建模、语义链接等技术,将多源档案数据进行抽象表示,发掘档案内在的事理逻辑,并与其他学科知识库实现互操作,支持跨领域的关联知识发现。

  第二,数字人文推崇文本细读与远读相结合。这要求档案知识库应该利用自然语言处理、机器学习等技术,挖掘档案语料中的命名实体、情感倾向等要素,洞悉宏观知识脉络,呈现微观的时空特征,为用户提供立体化知识阅读体验。

  第三,数字人文重视人机交互与可视化呈现。这要求档案知识库建设运用虚拟现实、知识图谱等技术,创新知识组织和展示方式,通过沉浸式场景再现、交互式检索问答等使档案知识变得鲜活灵动。

  2  档案知识库的应用服务创新

  2.1 面向数字人文研究的知识发现服务

  数字人文研究注重跨学科交叉分析与多模态综合解释。档案所记录的历史人物、重大事件、社会变迁等是开展数字人文研究的优质资源。档案部门可依托知识库,整合相关文献档案、文物档案、口述档案等,运用主题建模、社会网络分析等数字人文方法发现档案知识间隐含的关联,揭示历史发展的内在规律,为数字人文研究提供智力支持;档案部门还应加强与高校、科研机构的战略合作与协同,建立常态化、针对性的资源共享和人才培养机制,形成档案知识发现的跨界创新生态。

  2.2 基于知识推理的智能档案检索服务

  传统档案目录查询依赖人工标引,缺乏上下位、同义词等知识关联,难以适应泛在的个性化档案需求。档案知识库基于本体构建、知识图谱等技术,形成了概念、实体间复杂的语义网络,能通过知识推理实现从“找档案”到“找知识”的跨越。档案部门可利用本体推理、图谱搜索等技术,建立档案语义检索系统,通过知识问答、情境关联,实现从关键词到主题、从片段到全景的多路径、多维度知识导航。档案机构基于档案知识库开发面向公众的智能问答服务。在用户提出自然语言问题后,系统可根据实体链接、地理信息推理快速生成可视化答案,从而提升档案资源获取的精准度和互动性。此外,智能检索服务可以进一步延伸至移动端、物联网终端,通过语音交互、情景感知等人机对话技术,让档案走出网络,深度嵌入公众工作、学习、生活的各个场景。

  2.3 支持学术创新的开放档案数据服务

  档案知识库作为珍贵的科研数据资源,成为高校创新人才培养和学术研究的动力源泉。档案部门应树立开放理念,制定科学规范的知识产权政策,探索建立面向高校的开放数据共享机制。一方面,可通过API接口、数据镜像等技术,为高校师生提供安全、可靠的档案数据获取渠道。另一方面,可联合高校开展联合人才培养工作,开设档案数字人文实验室,以项目合作、产学贯通、研学交流、学术工作坊等方式,让高校学生参与档案数据加工、知识挖掘等实践,在理论与实践的碰撞交融中提升创新能力。

  2.4 面向社会公众的档案知识普及服务

  档案知识库为提升全民档案意识、传承红色基因提供了高效平台。档案部门应善于运用数字创意、文化创意等新思路,多渠道、多形式地开展档案知识的社会化、大众化传播。例如,开发沉浸式档案展厅,利用VR、AR等新技术,打造身临其境般的档案体验;设计互动式微档案产品,利用H5、短视频、网络直播等新媒体平台,生动呈现档案故事。此外,还要注重发挥档案专业优势,充分利用知识库平台,针对不同群体开发具有思想性、针对性、启发性的知识产品,讲好档案故事,传播好档案文化。随着数字人文、智慧城市等新理念的推进落实,档案知识普及服务还应积极融入智慧社区、数字文化馆等新型公共文化服务设施。

  3  档案知识库建设的未来发展趋势

  3.1 多源异构档案知识的融合与集成

  档案知识分散在不同的门类、载体和管理系统中,存在标准规范不一、数据壁垒突出等问题。未来,档案知识库建设要坚持开放共享理念,在国家政策、行业标准的引领下,打破数据孤岛,实现多源异构档案知识的无缝集成与快速流转。一方面,要完善档案数据管理政策,制定统一的元数据、质量标准,加快构建档案大数据中心,将分散在各地、各部门、各领域的数字档案汇聚成规模化、标准化的基础数据资源库。另一方面,要发挥语义网、链接数据等技术优势,通过本体映射、URI关联使档案库与图书馆、博物馆、高校科研机构的数字人文平台实现互联互通,构筑文化大数据资源网络。档案大数据还应注重与政府数据、互联网数据之间的融合,通过数据增强、迁移学习等技术,拓展档案知识的广度和深度。

  3.2 人工智能技术赋能档案知识挖掘

  档案大数据中蕴含着浩如烟海的知识,受限于自然语言理解等瓶颈,知识抽取与推理的广度、深度不够。档案知识挖掘要与人工智能技术深度融合,在知识表示、知识推理、知识问答等方面取得新突破。档案知识表示要从浅层文本特征向深层语义表示发展,利用深度学习、跨模态分析等技术建立融合语言、视觉、语音等多模态特征的档案语义空间,实现从数据层面的关联分析向知识层面的内容理解升级。档案知识推理要从基于逻辑规则的推理向深度神经网络的推理发展,采用图神经网络、注意力机制等技术,提升基于海量异质数据的归纳、类比等能力,发现长跨度、多步骤的隐性知识。档案知识问答要从关键词匹配向多轮对话发展,利用预训练模型、迁移学习等技术,建立融合档案知识库与开放域知识的问答系统,实现从被动响应向主动对话升级。

  3.3 基于大数据的档案知识计算与知识发现

  在数据驱动的数智时代,档案知识库建设应超越关键词检索,进入语义关联、交叉分析的新阶段;要充分发挥大数据在资源关联、模式挖掘、趋势预测等方面的独特优势,推动档案知识服务从以库为中心向以计算为中心转变;要利用链接预测、社群发现等大数据技术,深度挖掘档案实体、档案门类、档案主题的多维关联,实现从浅层关联检索向深度关联发现的跨越;要运用多源数据融合、增量计算等技术,实现档案知识库的自我学习、动态更新,破解知识老化、知识孤岛等困境;要利用知识推荐、用户画像等技术,建立基于大数据的档案知识个性化服务模式,为公众提供精准化、全方位的档案知识聚合服务。

  3.4 推动档案知识服务转型升级

  在数字人文、智慧城市的宏观语境下,档案知识库已然成为新型智慧档案馆建设的数字底座。档案部门应以知识库为支撑,运用物联网、边缘计算、沉浸式体验等技术,全面推进档案馆的智能化改造与智慧化转型,形成线上线下一体、功能服务融合的新型知识服务生态圈;要打造以知识发现、交互式检索为核心的线上数字档案馆,通过VR、AR、三维动画等沉浸式技术,创设逼真的虚拟展厅、互动工作坊,为用户提供沉浸式、个性化的在线档案文化体验;要推进实体档案馆向智慧化、场景化档案馆转型,利用5G、物联网等新一代信息基础设施,构建集感知、互联、计算于一体的智慧化档案服务系统,通过人脸识别、语音交互、情境感知等技术,实现档案馆服务柔性供给。

  参考文献

  [1]陈雨.数字人文视域下科技名人档案知识化开发探析[J].档案学研究,2023(4):99-107.

  [2]张斌,高晨翔,牛力.对象、结构与价值:档案知识工程的基础问题探究[J].档案学通讯,2021(3):18-26.

  [3]梁文超.数字人文视域下湘鄂赣红色档案在线知识服务创新路径研究[J].档案学研究,2023(6):85-92.

  [4]李燕.数字政府背景下档案资源辅助决策模式研究[J].山西档案,2023(6):121-124,120.

  [5]鞠孜涵,白如江,张玉洁,等.数字人文视域下古籍数据库建设关键技术研究:兼评稷下学文献资料数据库的建设思路[J].图书情报工作,2022(19):4-14.

  [6]洪佳惠.一种效果历史:人文视角下的非结构化档案数据知识化研究[J].山西档案,2023(1):78-85.

  【基金项目】国家社科基金项目“中国共产党图像叙事体系构建研究(1921—1949)”(项目编号:23BDJ086);山西省哲社课题“山西黄河流域体育非遗的活态传承研究”(课题编号:2023YY317);山西省社科联项目“基于内涵认知的山西黄河文化遗产构成体系及当代价值研究”(项目编号:SSKLZDKT2023133)。

  【作者简介】岳娜(1988—),女,汉族,山西阳泉人,太原学院文化与旅游系副教授,硕士,研究方向:文化遗产保护与旅游资源开发。