新一代信息技术在档案数字人文研究中的应用研究

发布时间:2024-09-10 19:36:36被阅览数:43 次信息来源:《山西档案》

  作   者:聂璐璐

  摘   要:随着文化数字化战略的不断推进,交叉学科体系建设的不断深化,以及新一代信息技术的蓬勃发展,档案数字人文研究迎来前所未有的机遇与挑战。聚焦人工智能、大数据、区块链、虚拟现实等代表性技术在档案数字人文研究中的融合应用,重点剖析档案知识图谱、文本量化分析、档案大数据、沉浸式档案展示等创新应用场景,旨在为档案数字人文研究提供理论参考和实践指引,推动形成以应用为导向、以融合为特色、以创新为动力的发展新格局。

  关键词:新一代信息技术;档案数字人文;数字人文;数智技术

  中共中央办公厅、国务院办公厅印发的《关于推进实施国家文化数字化战略的意见》提出“到2035年,建成物理分布、逻辑关联、快速链接、高效搜索、全面共享、重点集成的国家文化大数据体系,中华文化全景呈现,中华文化数字化成果全民共享”的目标[1]。随着文化数字化战略的不断推进与交叉学科体系的创新发展,数字人文作为人文社会科学与数字技术交叉融合的产物受到学术界的广泛关注。韦结余等[2]指出,交叉学科已成为科学发展的重要时代特征,是基础研究中产生创新思想的重要源泉。要加强前沿交叉学科布局,积极推动交叉学科管理体系建设,重视交叉学科人才培养,完善促进交叉学科发展的平台,以及营造有利于交叉学科发展的良好环境。

  当前,以人工智能、大数据、区块链、云计算等为代表的新一代信息技术正在蓬勃发展,在数字人文领域展现出广阔的应用前景。GPT系列大语言模型在自然语言理解与生成方面的卓越表现为档案文本数据的语义表示、知识抽取与深度挖提供有力工具[3]。应用计算机视觉、语音识别等人工智能技术,可以加速档案图像、音视频等多模态数据的数字化、结构化处理。区块链技术的深度应用为档案数字资源的版权确权、安全存证提供了可靠的解决方案。大数据处理架构能够支撑档案数字人文研究所需的海量异构数据的存储、计算与关联分析。探讨人工智能、大数据、区块链、云计算等新技术在档案数字人文研究中的创新应用路径,对于推动档案学科与新兴技术的深度融合,拓展档案数字人文研究的新领域、新方法、新范式、深化档案资源的智慧开发与创新应用具有重要的理论意义与实践价值。

  1  档案数字人文研究的关键技术体系

  1.1 基于数字化技术的数据处理

  扫描、识别、编码是档案数据数字化处理的基础技术。随着深度学习技术的发展,多语言OCR、手写体识别、版面分析等技术不断创新性突破,在将图像化档案转换为可编辑、可检索的文本数据方面逐渐发挥着重要作用,为提升档案文本数据的应用价值提供新思路。此外,高精度三维重建、数字化修复等技术在档案数字化保护、革命文物数字化展示等方面也得到广泛应用。

  1.2 基于语义技术的知识表示

  语义技术是实现档案资源语义化组织与深度应用的关键。典型的语义技术包括本体构建、语义标注、知识图谱等技术。基于特定领域本体描述档案资源的概念、关系与约束,可以在形式化基础上实现档案语义检索、推理与知识发现。利用语义标注技术,可以从自然语言档案文本中抽取人名、地名、时间、事件等核心要素,建立档案实体库。

  1.3 基于自然语言处理技术的知识组织

  分词和词性标注、命名实体识别、句法分析、语义角色标注等自然语言处理技术为档案文本的自动分析、语义表示与知识组织提供高效保障。在档案数字人文研究中,利用这些技术可以从海量档案文本中准确抽取事件、观点、情感等多粒度知识元素,建立面向档案文本的知识库,为档案语义检索、事理阐释、观点提炼等应用奠定基础。

  1.4 基于机器学习的知识发现

  机器学习方法为从海量档案数据中自动发现新颖的隐性知识和价值洞见提供技术支持。利用主题模型、聚类、关联规则等无监督学习方法,可以从档案中发现隐藏的主题脉络、事件演化规律。利用分类、情感分析等有监督学习方法,可以从档案中识别特定历史人物、机构的立场、思想、观点。

  1.5 基于可视化技术的知识展示

  借助信息可视化、科学可视化、地理空间可视化等技术,可以直观生动地再现历史真相、传递档案价值。例如,利用时间轴、桑基图等工具动态呈现历史事件的时序脉络,利用社会网络、引文网络、知识图谱等揭示档案实体的多维关系,利用交互式地图展示革命史迹、文化遗产的空间分布。

  2  新一代信息技术赋能档案数字人文研究

  2.1 人工智能技术

  以GPT系列为代表的大语言模型在自然语言处理领域取得重大突破。GPT模型采用Transformer架构和海量语料预训练,具备优异的语言理解和生成能力,在文本分类、情感分析、主题建模等任务中有着卓越的表现[4]。在档案数字人文研究中,可利用GPT模型对档案文本进行深度挖掘和语义分析,通过对档案文本进行命名实体识别、关系抽取、事件检测等,自动构建档案知识库,实现档案语义检索和推荐。利用GPT的文本生成能力,可以自动生成档案内容摘要、背景链接等,提升档案的可读可用性和互联互通性。

  计算机视觉、语音识别等技术为应对海量多模态档案数据的处理需求提供了全新思路。计算机视觉技术可以通过深度学习算法自动对档案图像、视频进行内容识别、语义标注,提取人物、场景、事件等关键信息;然后借助光学符号识别等技术,进一步识别提取图像、视频中的文字信息。语音识别技术可以将档案中的音频信息转换为文本信息,结合声纹识别、情感识别等,多维度解析音频档案的语义内涵。通过多模态人工智能技术的集成应用,显著提升档案数据的机器可读性,实现多模态档案数据与文本数据的关联融合,丰富档案数字人文研究的数据维度和分析视角[5]。

  2.2 区块链技术

  区块链技术以其去中心化、防篡改、可追溯等特性为档案数字化资源的版权保护和确权提供可靠的技术方案。基于区块链技术的档案版权保护系统,可以通过智能合约、非对称加密等机制,将档案的元数据、数字指纹、权属证明等信息上链存证,形成不可篡改、可追溯的版权证据链。此外,区块链技术还能助力档案资源版权的精细化交易,通过智能合约实现档案资源的自主定价、自动交割结算等,盘活档案数字资源的价值流转。

  在保护档案数字资源合法权益的同时,提供可信、可控的资源访问是区块链技术的另一大优势。利用联盟链构建档案资源共享网络,参与各方可按照事先约定的智能合约对共享档案资源进行可信访问和利用。访问控制策略可细化到用户角色、访问权限、使用期限、使用目的等,实现档案数字资源的精准授权。区块链技术中不可篡改的分布式账本可完整记录档案资源访问和使用情况,确保共享全程可追溯、可审计。在隐私保护方面,可以利用区块链的多方安全计算、同态加密等技术,实现基于加密数据的档案共享开放。

  2.3 大数据技术

  面对档案资源的体量激增,大数据处理架构成为档案数字人文研究的重要技术支撑。引入大数据分布式存储、计算框架,采用Hadoop、Spark等大数据框架,可实现档案数据的分布式存储和并行计算,提升数据处理效率[6]。基于HDFS、HBase、MongoDB等大数据存储系统,可实现档案结构化、非结构化数据的统一存储,支持灵活的数据扩展。引入Hive、Impala等大数据查询引擎,可实现档案数据的快速检索、即席查询、交互式分析。

  数据挖掘技术和机器学习算法为档案数据的研究型应用以及知识价值发现提供强大的方法支持。在档案文本聚类技术方面,可采用K-means、LDA等无监督学习算法,从大规模档案文本集合中自动发现主题脉络、演化趋势。在档案保密审查辅助方面,可训练有监督分类模型,如SVM、BERT等,自动识别档案文本中的敏感内容,提高档案开放的安全性和时效性。在档案知识推理方面,可采用基于知识图谱的表示学习算法如TransE等挖掘档案实体、概念间的深层语义关联,支持档案知识的深度问答和推理。

  3 基于新一代信息技术的档案数字人文应用场景

  3.1 档案知识图谱构建及其在档案检索、推荐中的应用

  档案知识图谱是以图谱形式表征档案及其承载知识的语义网络。通过自然语言处理、知识抽取等人工智能技术,可以从大规模档案文本中提取核心实体、关系和事件,形成由节点和边构成的异构知识网络。进一步结合表示学习、知识推理等算法,可以深入挖掘档案实体间的隐性关联,发现档案文本中的新知识、新内容。

  档案知识图谱在智能检索和个性化推荐方面具有广阔的应用前景。基于档案知识图谱,可实现基于实体、关系的智能检索,有效提升检索的查全率和查准率。知识图谱中蕴含的语义关联可用于档案资源的相关性计算和个性化推荐,显著提高档案资源的定制程度与获取效率。此外,基于可视化呈现的档案知识图谱为用户探索档案知识新空间、发现知识新关联提供直观友好、立体生动的交互界面。

  3.2 档案文本量化分析及其在社会记忆、集体记忆研究中的应用

  随着自然语言处理技术和文本量化分析技术的发展革新与深度应用,通过主题模型、情感计算、词向量等方法,可以实现从时间、空间、语义等多个维度刻画档案文本的数字特征,以及分析不同时期、不同群体的社会记忆特征[7]。例如,通过对特定历史时期的档案文本进行主题演化分析识别社会热点话题的动态变迁,以及通过跨档案库的文本语义对比探寻不同社会群体的记忆分歧与博弈。借助数据可视化手段,这些社会记忆、集体记忆的量化分析结果可直观呈现,为历史学、社会学等学科研究提供新视角与新依据。

  3.3 档案大数据及其在口述历史、文化遗产保护中的应用

  一方面,档案大数据为口述历史、文化遗产保护研究注入全新活力。口述历史是在口述档案基础上重构历史真相、还原社会风貌的研究方法。借助语音识别、语音合成等人工智能技术,可将海量口述音频转写为文本,进而对访谈内容进行主题挖掘、关键事件提取,并与其他文本档案关联分析,全面展现历史全景。

  另一方面,档案大数据也是文化遗产保护研究的重要资源。文化遗产档案具有内涵与外延丰富、形式与模态多样的特征,运用大数据处理架构和数据挖掘算法,可以对多源异构的文化遗产档案进行融合分析,揭示其时空分布、传承谱系,助力文化遗产谱牒化管理和活态化利用[8]。

  3.4 VR/AR 技术及其在档案展示与传播中的应用

  虚拟现实(Virtual Reality, VR)技术和增强现实(Augmented Reality, AR)技术为档案的呈现与传播开辟新的发展空间,是形成线上线下协同、虚实映射互补的全新档案传播生态的高效工具。VR技术可将档案文本、图像等映射到虚拟场景中,生动再现档案所记述的历史环境与事件,为用户提供沉浸式档案体验。AR技术可将虚拟档案信息叠加到现实场景中,突破档案的物理局限,让档案走出馆藏,走向公众。例如,革命旧址、档案馆、纪念馆等场所和机构可利用AR技术,将馆藏档案与实物场景精细融合,形成虚实交互的多维展示,以及开发情境化档案发现与浏览工具。

  参考文献

  [1]陈雨.数字人文视域下科技名人档案知识化开发探析[J].档案学研究,2023(4):99-107.

  [2]韦结余,西桂权.推进学科交叉融合 助力科技强国建设[N].中国社会科学报,2021-10-13(8).

  [3]许剑颖,冯桂珍.ChatGPT赋能档案服务:技术特征、应用场景与实现路径[J].山西档案,2023(6):111-120.

  [4]王静静,洪贇,叶鹰.GPT型技术应用重塑数字人文探讨[J].情报理论与实践,2023(6):43-46.

  [5]高丹,何琳.数智赋能视域下的数字人文研究:数据、技术与应用[J].图书馆论坛,2023(9):107-119.

  [6]郑慧,刘思含.人工智能与档案开发利用:应用、愿景与进路[J].山西档案,2022(5):5-10,28.

  [7]龙家庆,王玉珏,李子林,等.数字人文对我国档案领域的影响:挑战、机遇与对策[J].档案学研究,2020(1):104-110.

  [8]李欢,施瑞婷,张洁.人工智能在档案资源开发利用中的应用分析[J].山西档案,2021(2):71-78.

  【作者简介】聂璐璐(1987—),女,汉族,河南郑州人,郑州工商学院讲师,学士,研究方向:电子与通信技术。