大模型技术如何深度嵌入档案工作

发布时间:2025-03-24 17:25:07被阅览数:69 次信息来源:​中国档案报  作者:牛 力 金 持 黎安润泽

  随着新一代信息技术的发展,档案工作环境、对象、内容发生了巨大变化,管理对象演化、技术发展和需求提高等多重因素驱动档案工作数智转型,同时带来了档案知识获取、管理、存储和使用等新问题。大模型快速渗透影响了档案资源的形成、存储和利用方式,冲击了档案等公共服务业态,同时也为档案工作全链路技术升级提供了动能,为档案工作数智转型提供了有效手段和方法。本研究从大模型核心技术出发,探索大模型在档案工作中的应用及未来实践方向,以期为行业提供思路启发。

  何以必要和可行?

  从必要性来说,档案工作亟待转型,现有技术存在局限。在知识经济时代,档案资源呈现多源化、多样化、载体泛在化和需求复杂化的特点,传统档案工作模式难以应对。档案工作关注点已从数字档案转向档案知识,急需向知识空间转型。但当前档案工作技术实践,主要依赖基于规则的统计方法和有监督小模型,这些技术存在理解能力、自适应能力和泛化能力较弱等问题,导致技术工具使用不便、可拓展性差,档案工作仍以人工操作为主,停留在“你查我调”的被动服务模式中,无法满足档案工作数智转型的需求。

  此外,需要适应时代发展,满足新环境下档案管理需求。随着科学研究“第四范式”的发展以及档案资源的不断丰富,档案工作面临着新的挑战和机遇。档案资源量级的爆发式增长,使得传统的管理和服务方式难以满足实际需求。大模型技术的出现,为解决这些问题提供了可能,它能够处理复杂的数据和任务,帮助档案工作更好地适应时代发展的要求,实现从数字档案管理向档案知识管理的转变。

  在可行性方面,大模型性能强大且已在复杂场景成功应用。ChatGPT类大模型实现了跨任务类型、跨知识领域、跨模态生成和跨人机交互4个层面的跨越,具备强大的通用性、交互性、扩展性和自适应性。国内外诸多企业已将大模型应用于法律、医疗、电力等多个复杂领域,并取得良好效果。如,美国科技公司EvenUp推出的大模型应用于人身伤害索赔,南方电网公司的“大瓦特”电力大模型应用于80余个电力场景等,这些成功案例为大模型嵌入档案工作提供了实践支撑。

  图情档学界的研究也形成了应用共识。大模型的快速发展引起了图情档学界的高度关注。在图书馆领域,ChatGPT类应用可用于咨询服务、智能检索等方面。情报工作领域,在信息搜索、获取和分析处理环节有融合空间。档案领域,部分学者认为ChatGPT在文本摘要、分类整理等方面具有应用潜力。学者们一致认为大模型对图情档行业有积极影响,探寻其与业务工作的结合点已成共识,这为大模型嵌入档案工作提供了理论支持和研究基础。

  需要怎样的新模式?

  为解决大模型在档案工作应用中存在的“幻觉”、结果不可控及时效局限性等问题,我们提出基于CVP技术栈的“大模型+”技术嵌入框架。

  所谓“C”,是指ChatGPT类大模型在框架中作为中心 “大脑”,承担计算、推理的关键职责。它是整个框架的核心处理单元,凭借其强大的语言理解和生成能力,对输入的信息进行分析和处理,为后续的档案知识服务提供智能支持。

  “V”代表向量数据库,如Milvus等向量数据库,在框架中扮演“海马体”的角色,负责存储和管理业务数据。

  “P”为用户对大模型提出的自然语言提示语,是用户与大模型交互的关键方式。大模型会结合自身知识储备以及外挂数据库内容,对用户提示语进行理解和处理,进而生成相应的回复,满足用户在档案知识获取、服务等方面的需求。

  “大模型+”嵌入框架在档案工作中的应用流程包括以下几个环节。

  在档案知识获取阶段,“大模型+小模型”协同工作。小模型负责如命名实体识别、关系抽取等序列标注任务,大模型则利用自身理解非结构化数据的能力,解决小模型训练数据的收集和标注问题,并提炼复杂档案知识。

  在档案知识表示环节,基于连续向量的知识表示方法,借助嵌入模型将多模态档案知识编码为低维稠密向量,实现与大模型等人工智能模型的联通。在档案知识库构建方面,向量数据库存储档案知识,大模型与向量数据库连接,实现档案知识的高效检索和利用。

  在档案知识服务阶段,无论是主动服务还是增值服务,大模型都可根据用户提示语,结合向量数据库中的知识,为用户提供相应的档案知识服务。

  为档案工作带来哪些新转变?

  大模型嵌入赋能知识空间档案工作,推动了人机关系、工作场域和业务模式的变革,提升了档案工作的智能化水平与服务效能。

  一是人机关系从单向交互到互利共生转变。一方面,技术性能增强,推动机器身份立体化,大模型赋予机器更多元身份。它不再只是检索中介,而是能基于对问题的理解创造新知识,成为知识生产力。还能关注档案人员,提供情绪价值,成为虚拟助手。并且在智能化交互中持续学习,与档案人员共同成长,成为虚拟伙伴,实现互利共生。另一方面,技术多维辅助,也能凸显档案人员主体性。大模型及相关技术系统化嵌入,分担档案人员基础型工作,将其从重复、低智能任务中解放,使其专注于更具知识和思维要求的任务。同时,大模型把复杂技术任务转化为简单对话和自动操作,提升档案人员信息处理和知识应用能力,但人类始终是档案工作的决策和责任主体。

  二是工作场域从双空间联结到三空间协同转变。一方面,提升档案知识生产力,驱动档案资源三空间协同。电子文件管理“单轨制”发展和信息技术应用,虽推动档案工作重心转移,但仍存在问题。大模型嵌入提升了档案知识生产效率和质量,挖掘档案隐性知识,促进档案实体、数据和知识协同发展,打通知识流管理,反哺物理空间和数字空间。另一方面,赋智数字孪生体系,驱动档案馆室三空间协同。各级档案部门借助数字孪生技术建造数字空间孪生档案馆室,积累数据。大模型可进一步赋智该体系,拓展空间范围,构建孪生主体,提供智能服务,推动其向自主孪生阶段迈进,形成知识空间智慧档案馆室。

  三是业务模式从边界分野到一体集成转变。一方面,重构业务边界,推动一体化档案管理模式。我国传统档案管理模式离散,大模型的通用性和融合能力为档案工作 “一体化”发展提供支撑。档案部门应主动拥抱新技术,使大模型深入渗透工作,赋能工作人员,赋智业务系统,提高组织管理能力,实现管理模式一体化。另一方面,分析用户需求,提供“一站式”档案服务模式。档案管理系统建设离散,功能智能化弱,难以满足用户需求。大模型能提炼用户共性和个性需求,提升服务精度。增强系统交互和关联能力,提高服务质量。通过学习用户需求数据优化服务,提供主动和增值服务,形成“一站式”服务模式。

  大模型技术为档案工作带来新机遇,通过探讨其在档案工作中应用的相关问题,明确大模型嵌入档案工作时,在档案知识获取、管理、存储和使用方面的新模式,揭示大模型在推动档案工作数智转型过程中,使人机关系、工作场域和工作模式产生的新转变,对推动档案工作数智转型具有一定意义。

  档案部门应提升主观能动性,积极开展大模型等前沿技术在档案工作中的研究与试行,推进档案工作数智升级和新兴技术的场景化迁移。但也要重视大模型嵌入档案工作存在的应用风险和技术瓶颈,如数据治理、结果控制和数字素养等问题。档案人员应把握人的主体性,理性分析技术利弊,合理部署技术。

  (牛力系中国人民大学档案学院副院长、教授,金持、黎安润泽系该院博士生)

  原载于《中国档案报》2024年3月24日 总第4266期  第三版