新一代人工智能赋能档案开发利用的路径与方法研究

发布时间:2024-11-04 08:28:32被阅览数:220 次信息来源:《山西档案》

  作者:肖隽

  摘要:档案开发利用是发挥档案信息资源价值、服务经济社会发展的关键环节。新一代人工智能技术以其海量信息处理、知识关联、自主学习等智能化特征,为传统档案开发利用模式带来变革性影响。在梳理档案开发利用内涵、价值与挑战的基础上,从技术赋能的视角,深入阐述了人工智能驱动档案开发利用转型升级的重要意义,提出了基于知识图谱、自然语言处理、机器学习、大数据分析等关键技术的档案开发利用路径与方法。

  关键词:新一代人工智能;档案开发利用;知识图谱;机器学习

  在大数据和人工智能时代,数字化转型已成为各行各业的发展趋势。档案工作作为信息资源管理和知识服务的重要领域,也面临着变革与创新的迫切需求。传统的档案管理模式难以适应海量档案数据的处理和利用,呕需引入新技术、新方法来提升档案开发利用水平。党的十九大报告明确提出,要“推动互联网、大数据、人工智能和实体经济深度融合”,为传统行业数字化、智能化发展指明了方向。2021年,中共中央办公厅、国务院办公厅印发《“十四五”全国档案事业发展规划》,该规划指出:“加强大数据、人工智能等新一代信息技术在数字档案馆(室)建设中的应用,推动数字档案馆(室)建设优化升级。”“积极探索知识管理、人工智能、数字人文等技术在档案信息深层加工和利用中的应用。”在此背景下,以档案为代表的信息资源管理部门更应顺应时代发展要求,加快数字化转型步伐,创新服务模式。

  新一代人工智能是以深度学习、知识图谱、自然语言处理等为代表的新兴人工智能技术的统称。不同于传统的专家系统和规则引擎,新一代人工智能具有自主学习、深度推理、跨媒体理解等智能化特征,能够从海量数据中自动提取特征,构建复杂模型,发现隐含规律和关联关系。新一代人工智能技术以其强大的学习、理解和分析能力为档案领域带来了前所未有的发展机遇。

  本研究旨在探索新一代人工智能技术在档案开发利用中的应用,丰富档案学与人工智能跨学科融合的理论,为智能档案管理实践提供新思路。研究成果将为推动档案事业创新发展提供理论支撑和实践指引,彰显档案的社会价值。

  1  档案开发利用概述

  1.1  档案开发利用的内涵

  档案开发利用是指在档案管理的基础上,根据社会和用户需求,通过一定的方法和途径,发掘和释放档案所蕴含的价值,将档案信息转化为能够服务社会经济的知识和智慧成果,促进档案在各领域的广泛应用。档案开发利用内涵丰富,既包括传统的档案编研、编纂、展览、鉴证等工作,也涵盖数字环境下的档案数据加工、知识挖掘、智能检索、个性化推荐等新型服务方式。从资源层面看,档案开发利用强调对档案价值的发掘和再创造;从过程层面看,档案开发利用贯穿于档案管理和服务的全生命周期;从目标层面看,档案开发利用旨在实现档案信息资源的社会共享与高效利用。

  1.2  档案开发利用的模式

  档案开发利用呈现多样化的模式。传统模式主要包括档案编研、档案展览、档案编纂、档案鉴证等,侧重于档案文献和历史价值的挖掘。数字环境下,新兴的档案开发利用模式不断涌现。数字档案资源库的建设为档案开发利用奠定了坚实的基础,实现了档案信息资源的集中存储、规范管理和便捷获取。数字档案专题数据库的开发突破了传统检索模式的限制,通过主题聚类、关联分析等技术,为用户提供一站式档案专题信息服务。档案知识服务平台建设将档案开发利用提升到知识层面,利用本体构建、知识抽取、智能挖掘等技术,为用户提供个性化、精准化的档案知识服务。此外,档案大数据分析、档案知识图谱构建、档案智能问答等新模式正在兴起,将为档案开发利用注入新的活力。

  1.3  档案开发利用面临的挑战

  尽管档案开发利用取得了显著进展,但仍面临诸多挑战。传统开发利用方式难以适应数字时代的要求,函需转型升级。海量档案数据的组织、揭示和利用有待加强,“数据孤岛”现象仍较普遍。档案元数据标准规范有待完善,跨馆际、跨系统的数据共享和交换存在障碍。档案数字资源的共享开放程度不足,数据安全和隐私保护面临风险[1]。缺乏专业的档案数据分析和知识挖掘人才,数据价值转化能力有待提升。档案开发利用以粗放投入和忽略效益为主,且开发对象以单一结构和浅层检索为主,使得档案工作无法满足用户需求,同时导致技术、资金等资源重复或过量投入[2]。

  2  新一代人工智能赋能档案开发利用的优势

  2.1  提升档案信息处理效率

  海量档案的数字化采集、编目著录、内容标引等工作往往耗时费力。应用人工智能算法可实现档案自动分类、命名、摘要、关键词提取等,大幅提高档案信息处理效率和准确性。例如,利用光学字符识别(OCR)和自然语言处理技术,可快速提取档案影像、文本内容,自动生成规范化的著录信息。又如,基于深度学习的档案图像、视频智能解析技术,能够自动检测、识别档案资料中的人物、地点、事件等语义信息,实现内容自动标引。随着人工智能处理效率的不断提升,将有效缓解档案管理“数字化易、整理难”的困境。

  2.2  促进档案知识发现与利用

  档案蕴含着丰富的知识资源,但传统的目录检索方式难以充分挖掘其内在联系和深层语义。引入知识图谱、语义搜索等人工智能技术,能够建立档案资源与相关知识的语义关联,实现从“资源检索”到“知识发现”的跨越。通过对档案进行实体识别、关系抽取、知识推理等处理,形成结构化的档案知识库,用户可以从概念、实体等多维度检索档案,系统能够根据语义相关性推荐档案资源,从而实现“用户问什么,系统答什么”的智能化档案知识服务。

  2.3  拓展档案服务的广度与深度

  在数字化环境下,档案服务对象日益多元化,服务需求不断升级。传统的档案服务模式难以适应不同用户的个性化需求。应用智能问答、知识推荐等人工智能技术,能够实现人机交互式的档案咨询服务,可以根据用户特征和行为偏好提供个性化的档案资源推送,提升用户体验。此外,虚拟现实、增强现实等人工智能新兴技术在档案展示中的应用,也极大地拓展了档案服务形式,为沉浸式档案体验、交互式档案故事叙述等带来了更多想象空间。

  2.4  推动档案管理模式变革

  人工智能的引入将推动档案管理模式的重塑和再造。借助机器学习、数据挖掘等人工智能技术,档案管理工作将从事后服务为主转向事前辅助决策、事中智能审核、事后知识挖掘的全流程智能化管理。在事前,通过对历史档案大数据的分析挖掘,可以预测未来一段时间的档案数量、类别分布情况,辅助制定档案接收、移交计划。在事中,智能合同审核、智能文本纠错等人工智能应用可嵌入办公流程,实现档案形成环节的智能化监管。在事后,档案工作重心将从单纯的管理保管转向价值利用和知识服务,通过数据关联分析、知识发现等,不断赋予档案新的生命力。

  3  基于新一代人工智能的档案开发利用路径

  3.1  构建档案知识图谱,实现资源语义关联

  档案知识图谱是以图形化、结构化的方式描述档案中的核心概念、实体及其相互关系,形成计算机可理解和处理的知识库。通过自然语言处理、命名实体识别、关系抽取等人工智能技术,可以从档案文本中自动提取人物、地点、

  组织、事件等实体,并根据上下文语境识别实体间的语义关系,构建覆盖档案全领域的本体知识库。在知识库的基础上,运用图数据库、知识推理等技术,建立档案实体链接图,揭示档案内在的关联脉络。知识图谱将档案“图书馆”式的藏储管理模式转变为“百科全书”式的知识组织模式,实现档案资源的语义化关联与融合,为智能检索、关联分析、推荐挖掘奠定基础[3]。

  3.2  研发档案智能检索与推荐系统,优化用户体验

  传统档案的目录检索方式具有一定局限性,档案的编目规则和主题词表的学习成本较高,以及检索途径的单一性,降低了档案服务的体验性。引入智能检索技术,可以建立多模态、跨媒体的档案搜索引擎,实现文本、图像、音视频等异构档案数据的关联检索。基于自然语言查询理解,用户可以用口语化的问句检索档案,系统能够理解问句语义,抽取关键信息,并对问句进行扩展和优化,返回高相关的结果。在知识图谱的支持下,系统可以实现概念级、语义级的档案检索,用户输入某个主题词,系统不仅返回与之直接相关的档案,还可以推荐该主题的上下位概念及相关概念等,形成档案知识链。此外,借鉴互联网个性化推荐技术,开发基于内容的推荐和基于协同过滤的推荐算法,可以根据用户画像和兴趣偏好,实现档案资源的精准推送[4]。

  3.3  应用机器学习算法,辅助档案编目与整理

  档案编目整理是一项费时耗力的工作,需要档案工作者具备专业的历史学、文献学素养和馆藏知识。应用机器学习算法可以让计算机从海量已编目的档案数据中自动学习规律,形成档案编目知识库,辅助完成档案著录、主题标引、分类排架等工作。例如,利用监督学习算法对已标引的档案元数据进行训练,形成多标签分类模型,可以自动识别档案的主题属性,提取关键词,生成规范的主题词标引。在档案分类方面,聚类算法可以通过档案内容相似性自动将档案划分为不同类别,帮助档案工作者完成档案门类框架的设计。此外,迁移学习、增量学习等算法可应用于馆藏档案的自动比对,识别出与新进档案相似的在馆档案,参考已有编目信息,自动推荐题名、责任者、主题词等著录项,减少档案工作者的重复劳动。

  3.4  利用自然语言处理技术,增强档案信息提取能力

  档案蕴藏大量非结构化文本信息,传统的目录著录方式难以完全揭示档案的内容特征。运用自然语言处理技术,可以从档案文本中自动抽取丰富的语义信息,形成结构化的内容标引和元数据描述,提升档案信息资源的深度揭示水平。例如,命名实体识别技术可以从档案文本中自动识别出核心实体,如人名、地名、组织机构名、时间、关键事件等;关系抽取技术可以识别实体之间的关系属性,如任职关系、隶属关系、家谱关系等;文本摘要技术可以自动提炼档案的核心内容,生成档案内容摘要;话题分析技术可以发现档案中隐含的主题脉络和词汇分布。自然语言处理技术将传统的档案管理由“物理管理”转变为“智能内容管理”,实现档案语义信息的结构化表示和关联组织,为档案语义检索、知识挖掘、可视化分析等应用奠定数据基础,推动档案开发利用向智能化、精准化、深层次发展。

  3.5  融合大数据分析方法,深度挖掘档案价值

  档案记录了政治、经济、文化等各个领域的历史变迁,隐含着丰富的发展规律和社会洞见,是数据分析和知识发现的资源库。运用大数据分析方法,可以多维度、多层次地考察档案数据的内在联系,深度挖掘档案价值。例如,运用社会网络分析方法,可以从档案中提取人物关系数据,刻画特定历史时期的社会网络结构,揭示不同群体的交往圈、影响力等;运用文本挖掘技术,可以从海量档案文本中发现热点话题的历时演变规律、地域分布特征等;运用时空数据分析方法,可以从档案中提取时间、地点等信息,复原特定历史事件的时空进程,考察不同区域的比较优势和发展差异;运用预测分析模型,可以借鉴历史档案数据,结合当前形势,预判未来一段时间的发展态势和风险挑战。

  4  结语

  新一代人工智能具有海量数据处理、知识表达与推理、自主学习优化等显著特征,为档案信息资源的智能化管理和深度开发利用提供了新的理论视角和技术路径。本文深入探讨了机器学习、知识图谱、自然语言处理等多项前沿技术在档案领域的应用路径,涵盖智能编目、语义关联、智能检索、知识问答、大数据分析等关键环节,对传统的档案工作流程和服务模式进行了全面再造。一系列创新性的应用实践表明,人工智能与档案的深度融合,将推动形成智能驱动的开放知识服务生态,为档案开发利用注入新动力。

  参考文献

  [1]郑慧,刘思含:人工智能与档案开发利用:应用、愿景与进路[J].山西档案,2022(5):5-10,28.

  [2]李欢,施瑞婷,张洁,人工智能在档案资源开发利用中的应用分析[J].山西档案,2021(2):71-78.

  [3]孙大东,张怡涵.基于事理图谱的红色档案资源开发利用研究[J].档案学研究,2023(5):73-80.

  [4]牛力,黎安润泽,刘慧琳,等,从物理到数据:智慧档案2.0体系构建研究[J].档案学研究,2022(3):84-90.

  【基金项目】陕西省社科基金项目“基于数字技术的农村留守儿童教育精准帮扶研究”(项目编号:2020P028);香港田家炳基金会项目“西部农村留守儿童教育精准帮扶的理论与实践”(项目编号:2207-01-410);宝鸡文理学院本科教学改革项目“基于创新训练项目的教育技术学实践类课程体系探索”(项目编号:22JGYB09)。

  【作者简介】肖隽(1982一),女,汉族,陕西宝鸡人,宝鸡文理学院教育学院讲师,硕士,研究方向:信息技术与教育。