发布时间:2025-02-28 08:24:00被阅览数:121 次信息来源:《中国档案》
作者:贾茹 钟美菱 姚子雄
随着自然语言处理中预训练模型的不断发展,大模型通过强大的反馈学习,可以为文本分析、文本摘要、问题回答等提供有力支撑。这一技术优势,对信息挖掘难度高、服务需求迫切的档案行业来说,能有效提高档案信息内容加工、理解与服务效率,为实现档案智慧服务提供更多可能。然而,大模型生成数据的可控性、与其他档案智能化技术的有效融合等问题还需要不断突破。
目前,国内对档案智能服务已有一些研究成果,2015—2020年期间,一些学者从技术应用与行业转型等角度,围绕新型信息技术、数字档案馆智能平台建设、业务管理和服务系统完善升级提出设想与解决思路,但大多停留在研究层面。近3年,随着技术应用的日趋完善,学者逐渐开始关注更具体、更可行的应用方法,如孙向阳探讨数字孪生技术背景下,档案馆可提供虚拟交互、泛在感知、协同管控和情景交融四大服务场景,搭建以人为本、精准智能、安全可靠、全时空服务的智能服务体系。周林兴等总结档案信息服务模式经历了“馆员型”“资源型”“用户型”“智慧型”4个阶段,提出智能化档案信息服务是在个性化档案信息服务和精准化档案信息服务模式的基础上,以用户为核心,对用户的检索行为和历史行为进行跟踪分析,建立智能化用户信息需求库,根据用户的动态变化为其提供具有针对性的精准服务。郑慧等在探讨人工智能在档案开发利用应用中,提出要加强以用户为导向的服务推送,还要建立新型体验式档案馆,实现档案资源多元化组合和多维度推送。
总体来看,目前针对档案智能服务的探讨已有一些研究成果,但实际应用层面的尝试与分析还较少,尤其大模型在档案智能服务中的应用落地还有很大的研究空间。本文结合技术分析与落地试验,尝试探索大模型在档案智能服务的应用模式与初步效果比对,可为后续档案智能服务的不断深入研究应用提供思路借鉴。
档案智能服务与知识增强大模型
1.档案智能服务及其特点
本文所指的档案智能服务是运用人工智能、大数据、云计算等技术,以用户需求为核心,以提高档案服务人员的服务水平、提升档案用户的服务体验为目标,实现精准、高效的感知型档案服务。档案智能服务已不仅仅局限于传统的档案服务利用,而是从档案本身角度出发,面向管理人员、对外用户等多种服务对象,充分发挥档案作用,产生社会价值,更宽泛意义上的档案服务。
2.档案智能服务发展需求
(1)服务过程时效性
当前各项业务工作对档案信息保障能力要求正在不断提升,需要利用人员准确理解用户需求,并能根据用户描述,在海量跨模态档案信息中,快速查找反馈用户信息,形成高效档案信息支撑能力。
(2)服务内容精准性
档案信息服务要保持高可靠性,需要利用人员主动了解用户需求、了解馆藏、了解相关历史信息作为补充,为其提供档案咨询或相关知识,全面详实提供利用服务。
(3)服务方式多样性
根据利用目的,不同用户对档案内容的需求不同,有些只是需要关键性数据,有些需要大量史料总结提炼。为了提高档案服务能力,档案服务形式除了传统信息检索之外,还应根据具体利用需求,提供信息加工、信息提炼与适当的信息组织梳理等服务。
要实现以上目标,高效精准运用大模型、知识图谱、大数据分析与可视化技术,将为实现智能服务提供可能。
3.知识增强大模型
百度公司的“文心一言”提出知识增强大模型概念,指出知识增强大模型具有对话交互、内容创作、知识推理、多模态生成等能力,关键技术包括监督精调、人类反馈的强化学习、提示、知识增强、检索增强和对话增强。成鑫在探讨大模型在“知网”建设应用时,提出通过知识增强策略构建高质量数据,通过知识库实现对大模型的知识增强,有效提升和控制大模型回答问题的能力,通过海量的数据随机训练生成知识,并做到可信溯源。
知识增强大模型是指在基础大模型框架下,兼顾大规模知识图谱平行预训练,提升模型学习效率,实现在各行业领域,更小参数规模下,效果更好、效率更高,具有良好可解释性与可信性的大模型技术。
知识增强大模型可以简化理解为融合知识图谱与大模型的增强型大模型,其技术框架可从数据、模型、技术和应用4个层面进行分析(如图1所示)。数据层面,融合了结构化数据、文本、图片、视频等多模态档案信息数据;模型层面,融合了大语言通用预训练模型和知识图谱技术;技术层面,综合运用指令工程、特征学习、图神经网络等人工智能技术;应用层面,主要涉及搜索引擎、知识推荐、智能对话与AI助手等功能。
图1 知识增强大模型技术
知识增强大模型的优势主要有:一是提高大模型的可行性与可信度,为通用大模型在垂直领域的应用提供行业知识支撑,弥补通用大模型语料中专业领域知识不足,对大模型的生成能力进行各方面的评估,降低事实性错误发生率,适度控制内容生成,提高大模型在行业应用场景中的适应能力;二是提升知识构建效率,可利用大模型语义理解和生成等能力抽取知识,提高知识抽取的准确性和覆盖度,也可以抽取隐含的、复杂的、多模态的知识,降低图谱构建成本,辅助知识图谱的半自动化构建设计,增加知识的全面性和覆盖度,协助更好地完成知识融合更新,辅助提升知识图谱的输出效果,生成更加合理、连贯、有创新性内容,例如文本、图像、视频等;三是降低大模型在垂直领域应用成本,知识增强大模型可有效兼容原有知识库,实现小样本环境部署,降低学习与训练成本及在垂直领域的应用门槛,为大模型在各行业的广泛应用提供了有效思路。
综上,知识增强大模型有效平衡通用性与专业性、不确定性与可控性、成本与代价等方面,可实现更符合档案领域、理解力更强的档案智能知识服务。
4.解决思路
要实现精准、高效的感知型档案智能服务,需要突破的难点在内容理解与表达,亟须提高档案服务响应速度与服务质量,加快由传统的被动响应式服务向主动高效的推荐式服务转变,将离散的档案信息进行有效知识关联与数据解析重组,提升服务的实效性、精准性与多样性,形成用户所需的档案数据资源服务。解决这一难点的关键技术之一就是运用知识图谱与大模型技术,对档案内容进行认知计算,并通过自然语言处理充分理解用户需求、形成复合用户阅读理解习惯的档案服务结果,合理利用知识图谱与大模型这一“桥梁”技术,达到档案信息服务供求方与服务对象需求方的最佳平衡。
具体技术解决思路(如图2所示)采用知识增强大模型优化算法、打破技术应用壁垒,可解决传统大模型技术,信息的不可控性、可解释性差和高额的大样本训练代价等问题,实现大模型技术在档案领域的深度应用。针对档案智能服务时效性、精准性和多样性要求,结合大模型应用中的领域迁移、增强可信性需求,可将技术路线拆解为自适应领域大模型框架、多轻量化模型协同处理框架、可溯源知识归纳和推理3项关键技术。在确保档案数据安全可控前提下,根据档案数据特征,构建档案领域大模型框架,通过对前沿大模型技术进行领域迁移、轻量化转换,促进大模型充分理解档案领域应用需求,为大模型垂直应用与档案行业奠定基础;构建多模型协同处理框架,降低应用成本形成可溯源综合知识治理方法,通过多模型合理调度与融合应用,优化提示工程档案数据索引和查询算法,通过多模型合理调度与融合应用,在一定程度上解决复杂领域语义关联困难与信息冗余偏差问题,充分发挥各模型技术优势,满足复杂档案挖掘与服务需求提升服务可行性与可信度,满足服务时效性、精准性与多样性需求;研究大模型知识归纳与推理,充分理解档案服务应用需求,实现档案知识总结、分析与判断,并根据用户需求重新组织生成信息资源,构建新型档案知识服务体系,有效提升档案服务精准性。
图2 知识增强大模型满足档案智能服务需求解
应用效果分析
以上技术框架是根据档案智能服务模式下,结合感知型服务场景中的智能问答、智能推荐、智能检索等典型应用需求,梳理形成的主要技术解决方案。由于档案智能服务模式涉及档案管理各方面,为了能更好理解技术研究思路,本文围绕选取英模烈士档案,以实现档案智能编研需求为例,通过运用知识增强大模型技术,构建英模烈士智能服务平台,提升原有英模烈士知识库服务能力,对上述研究内容进行思路方法验证。该案例以军队英模烈士档案数据为研究对象,对档案数据进行知识重构与可视化,形成以英模烈士为主线的档案智能编研服务,融合大模型框架思路,对原有英模烈士知识库进行能力增强,对比形成较为直观的应用效果验证。
1.应用设计
英模烈士档案智能服务平台体系框架的构建将大模型与知识库相结合,在底层技术基础层,展开针对军队英模烈士自适应大模型框架研究,解决通用大模型对该类档案信息的理解力差问题;通过运用开源小模型协同处理,解决英模烈士档案语料复杂与冗余、偏差问题;展开知识归纳推理的可溯源研究,解决英模烈士档案新生成数据的不可靠性。在框架层设计为“生成式大模型+知识库”相结合的知识增强大模型技术路线,运用大模型提升知识图谱的知识抽取和图谱构建能力,并将知识图谱作为大模型输入,提升大模型对英模烈士档案数据加工理解的专业性和可信性。
2.案例比较
为直观比较应用传统知识图谱技术的档案知识服务与应用知识增强大模型的档案智能服务的差别,本文以知识图谱形成的智能问答与结合知识增强大模型技术后的智能问答及文本生成功能为例,对效果进行比对。
原有知识图谱基础上的智能问答,在分析了大量英模烈士档案数据基础上,根据英模烈士档案类型及数据特点,对该类档案梳理出军队英模烈士档案数据组织方案,并针对2000个立功受奖英模进行了图谱构建,形成了200余万数据结点。在图谱基础上,构建了基本的智能问答对话,将数据关联整合后,可形成问题答案,如“河北籍男性党员班长有哪些?”,联系了性别、政治面貌及职务3类数据而整合分析出符合条件的英模共有13人,并可将符合条件英模具体信息进行梳理罗列。
虽然知识图谱形式的智能问答,已基本给出了综合各要素后的逻辑答案,但数据处理仍停留在对数据属性、基本关系的逻辑判断上,离自然语言处理环境下的人脑思维对话还有较大差距。使用知识增强大模型,提升语义理解力和信息关联分析能力,问题回答将更准确、灵活,如针对某名英模,在原有英模事迹数据基础上,大模型可直接总结其生平简历并梳理出其事迹脉络及主要事迹。
虽然应用知识增强大模型后,智能问答结果较为准确、实用,达到了智能服务中对实效性、精准性的要求,但为了测试大模型的理解生成能力,提升服务的多样性,结合编研人员对英模文章撰写需求,采取小样本学习方式,让大模型仿照日常“主标题+引言+小标题+正文”的体例格式,自动生成一篇同体例文章。
为提高生成文章的可信性,方案先为知识化后的英烈数据构建向量库,通过问答方式获取所需知识素材,包括人物生平简介与人物事迹,结合大模型对生平事迹例文的学习,对知识库进行归纳总结,形成文章标题和对应的主要事迹,再由大模型通过学习得出知识库原有英模文章的写作体例和内容要求,对文章进行微调、自动微调与拼接,最后形成完整文章。
3.总结分析
以上应用试验,仅针对英模烈士类专题档案进行了档案编研方向知识增强型大模型应用尝试,虽然试验设计简易,但试验效果展示出知识增强大模型在充分理解档案领域后,其应用效果与应用前景均较为可观。总结经验主要有以下几点:
(1)能力突出
知识增强大模型的推理生成能力与小样本学习能力超出预期。此次试验采用了清华智谱ChatGLM3-6B大模型底座,仅用58篇英模事迹文章进行小样本预训练学习,大模型就给出了可行的答案,其学习能力、数据归纳分析和生成能力较为理想。
(2)优势互补
知识增强大模型可有效平衡通用性与专业性,实现大模型技术在档案领域中应用落地。通过立足档案领域特点设计的技术路径与解决思路,充分发挥了知识图谱与大模型技术优势,较好解决了技术与需求之间的平衡问题。
(3)技术赋能
知识增强大模型可充分发挥档案原始凭证性,提供高可靠性数据生成式服务。通过合理技术改进与设计完善,知识增强大模型可充分赋能档案智能服务需求,为用户提供可信度高、精准度高的感知型智能服务。
(4)应用广泛
知识增强大模型未来在档案智能服务中的应用场景将远超预想。目前,还停留在对传统档案需求的推断上,未来可预见性的知识增强大模型将重塑各行业运行模式,从基础的数据理解与治理,到复杂的数据分析与知识提炼,再到多元的数据知识服务,不仅可大大降低档案管理成本,更将围绕档案信息服务能力提升,提供管理颗粒更细、应用更多维、服务更多面的档案智能管理方式。随着信息智能化萃取与凝练能力的提高,作为重要信息资源的档案,将逐步成为数据资产、决策资产与战略资产,引起更多关注。
参考文献:
[1]Wayne Xin Zhao,et al.A Survey of Large Language Model,arXiv:2303.18223.
[2]杨智勇,周枫.试析智慧档案馆的兴起与未来发展[J].档案学通讯,2015(4).
[3]杨艳,薛四新,徐华,等.智慧档案馆技术系统特征分析[J].档案学通讯,2014(4).
[4]张卫东,王萍.档案用户需求驱动的个性化服务模式研究[J].档案学通讯,2007(2).
[5]张倩,高效文书档案区块链智能管理平台的建设设想[J].档案与建设,2020(4).
[6]孙向阳.数字孪生环境下档案馆智慧服务场景应用研究[J].浙江档案,2022(2).
[7]周林兴,林腾虹.用户画像视域下智能化档案信息服务:现状、价值、运行逻辑与优化路径[J].档案学研究,2021(1).
[8]郑慧,刘思含.人工智能与档案开发利用:应用、愿景与进路[J].山西档案,2022(5).
[9]程妍妍,李剑锋,孙筠.新一代信息技术在档案工作中的运用及启示:以欧盟“时光机”项目为例[J].浙江档案,2022(4).
[10]罗人芳.珠海市数字档案馆迭代升级实践[J].中国档案,2022(3).
[11]档案春秋.上海市档案馆的这些宝藏资源别错过!更多个性化应用场景等你来解锁[E].档案春秋,2023-08-31.
[12]赵广立.文心一言是如何炼成的?[N].中国科学报,2023-3-23.
[13]成鑫.CNKI知识增强大模型建设探索[J].武汉社会科学,2023(3).
[14]中国电子技术标准化研究院.知识图谱与大模型融合实践研究报告(2023年版)[R],2023.
作者单位:解放军档案馆、中国科学院自动化研究所
责任编辑:王辉