融合知识库与语境信息的档案文本生成式问答模型构建研究

发布时间:2024-08-07 20:02:57被阅览数:38 次信息来源:《山西档案》

  文/赵莹莹

  摘 要:针对新时代档案智能化发展需求,提出一种融合知识库与语境信息的档案文本生成式问答新范式。在此范式下,围绕模型架构设计、语境信息建模、知识库构建、异构信息融合等方面展开系统性探索,形成了“知识库驱动、语境信息增强”的档案智能问答技术体系。在理论与技术层面,为档案知识服务智能化升级提供新思路,对于推动人工智能与档案管理的融合发展具有重要价值,能加快构建智能化的新时代档案知识服务新体系。

  关键词:档案文本生成式问答;知识库;上下文学习;语义融合;智能档案

  随着以ChatGPT、文心一言等大语言模型为代表的生成式人工智能技术逐渐渗透到信息资源管理学科的各个角落,展现出领域内多维度丰富的应用前景,档案界也掀起了变革之风[1]。与此同时,2024 年颁布实施的《中华人民共和国档案法实施条例》新增“档案信息化建设”专章,要求机关、团体、企事业单位和其他组织加强档案信息化建设,积极开展文字、语音、图像识别工作,加强档案资源的深度挖掘和开发利用。该条例的出台为探索生成式人工智能在档案领域的应用提供了政策依据。将先进的生成式人工智能技术与档案管理流程深度融合,对于提升档案管理和利用水平、发挥档案资源在当前数字经济社会发展中的重要作用具有重要理论与实践意义。

  1 档案文本生成式问答的基本概念与理论基础

  1.1 档案文本生成式问答的定义与特点

  档案文本生成式问答是通用生成式人工智能在档案垂直领域的一种创新型智能档案知识服务技术,高效融合了知识库检索与自然语言生成两种技术范式。该技术的基本原理主要是通过对用户输入的自然语言问题进行语义理解和表示,然后利用问题表示从预先构建的档案知识库中进行知识增强检索,最后结合检索到的可追溯来源的知识、上下文信息以及语言生成模型,自动生成符合人类语言习惯的自然语言文本供用户参考与利用。通过这种智能交互方式,档案文本生成式问答能够根据用户的具体问题快速、准确地从浩瀚的档案资料中提炼出关键信息,并以人类能够理解的自然语言形式呈现给用户,极大地提高了档案知识服务的智能化水平和用户体验。

  与传统的档案知识服务方式相比,档案文本生成式问答展现出多个显著优势和特点。首先,该系统具备强大的知识挖掘能力,即主要利用自然语言处理、知识图谱等人工智能技术,实现对用户问题的自动理解和语义匹配,突破关键词匹配等传统检索方式的局限,充分挖掘词汇之间的语义关联,生成高度精准、匹配度极高的答案文本。其次,融合先进的自然语言生成技术,该问答模型输出的答案文本不仅在语法、语义上相对准确,而且行文流畅、通顺自然,比较符合人类语言表达习惯,并不是传统意义上的未处理知识文本。最后,档案文本生成式问答还具有灵活处理开放域问题的能力,即便是针对同一主题,它也能够基于上下文语境学习和多轮对话的方式生成针对不同用户的个性化答案,获取深度、连贯的档案知识服务。因此,档案文本生成式问答的构建开拓了档案知识服务技术发展的新趋势、

  1.2 知识库在档案文本生成式问答中的作用

  知识库是实现档案文本生成式问答的核心支撑和关键基石。档案知识库作为一种特殊类型知识库,在计算机可理解和处理的基础上,以语义化、结构化的形式系统存储和组织档案资源及相关领域的知识资源[2]。首先,通过对档案资料中分散、非结构化知识的提炼和形式化表示,构建出一个高度结构化、语义丰富的知识体系,为档案文本问答提供了权威、系统、专业的知识基础。其次,更新机制的特点也能够保持知识的实时性和有效性,确保档案资料的动态积累,赋予档案知识库作为生成式问答知识源的独特价值和优势。

  在档案文本生成式问答的过程中,知识库发挥着不可或缺的支撑作用,集中体现在语义理解、知识检索、知识组织、质量保障等关键环节。首先,在语义理解环节,知识库以概念、实体、属性、关系等形式化的语义表示,为理解用户问题提供了重要的语义线索,系统可以借助知识库对问题进行语义映射,准确把握问题意图。其次,在知识检索方面,知识库以统一框架对档案知识进行抽取、语义关联,构建起相对完备的知识源,从而快速、精准地检索与问题相关的知识,获得生成答案的原材料。再次,知识库所包含的概念结构和关系网络,可为知识文本的内容组织提供有益的参考和指导,帮助系统合理布局答案要点,增强其结构性和连贯性。最后,档案知识库的建立依靠权威的档案资料,确保生成的答案具备可溯源性、专业性和可信赖性,从而有力保障档案知识服务的整体质量。

  1.3 语境信息在档案文本生成式问答中的作用

  语境信息的基础是根据系统能够对上下文学习,实现从类比的角度习得任务所需的知识模式,并将其应用到新的问题情境中。将上下文学习引入档案文本生成式问答,能够很好地契合档案知识的特殊性、档案语言的复杂性以及档案查询的多样性等特点。在档案文本生成式问答的实现过程中,上下文学习主要用于知识库构建、问题理解、知识检索、答案生成等关键任务。传统的结构化档案知识库可以利用上下文学习,引入自然语言形式的知识表示,形成更灵活、易于理解和扩展的档案知识上下文。在问题理解阶段,示范性问题样例使语言模型能够掌握档案领域问题的语义特点,结合当前问题的上下文准确分析用户意图。对于知识检索任务,可通过构建示范性问答样例来查询上下文,让语言模型直接从相关问题的历史答案中进行类比学习,动态生成匹配当前查询的知识。在答案生成环节,上下文学习提供的示范性问答语料成为语言模型效仿和学习的对象,模型可以从样例中习得行之有效的答案生成模式,进而针对新问题输出契合档案特点的自然语言答案。由此可见,上下文学习以其独特的学习机制,为档案文本生成式问答的关键任务提供了新的思路和手段,有望进一步提升问答系统的领域适应性、语言理解能力以及生成内容的真实性和可解释性。

  1.4 融合知识库与语境信息的必要性与可行性

  档案知识库和上下文学习分别从结构化文本和自然语言理解的角度为档案文本生成式问答提供了理论与技术的支撑。在实际应用中,二者通过优势互补,融合利用,能够进一步提升档案领域问答系统的整体性能。知识库以结构化形式呈现知识,但是难以穷尽隐含的语义关联。引入上下文学习,可从语言理解的维度补充丰富知识库,发掘未直接表达的概念关系。反之,上下文学习虽然允许灵活使用知识,但是很大程度上依赖于示范样例的质量。利用规范的档案知识库构建优质示范语料,能够引导大语言模型学习到准确、系统的档案知识模式。因此,融合二者,形成“知识库驱动、语境理解增强”的档案文本问答新模式,是实现智能化、精准化档案知识服务的必由之路[3]。

  2  融合知识库与语境信息的档案文本生成式问答模型构建

  2.1 模型总体架构设计

  本研究所构建的融合知识库与语境信息的档案文本生成式问答模型,旨在充分利用结构化知识库的准确性、可解释性优势,同时兼顾语境信息的灵活性、多样性特点,实现智能化、个性化的新型档案知识服务模式[4]。模型的总体架构主要包括知识库构建与语境信息提取、知识库与语境信息的融合策略两大核心模块。其中,知识库构建与语境信息提取模块从原始档案文本中抽取结构化知识要素并表示语境信息;知识库与语境信息的融合策略模块通过语义表示学习和注意力机制实现异构信息的深度交互与整合,为档案文本生成式问答提供了一种新思路、新范式,有望显著提升档案知识服务的效率与质量。

  2.2 知识库构建与语境信息提取

  2.2.1 档案领域知识库的构建方法

  知识库的高质量构建是确保融合知识库与语境信息的档案文本生成式问答模型的主要条件。传统的知识库构建主要依赖人工或按照规定的方式进行数据采集,存在成本高、效率低、扩展性差等问题,难以满足海量档案资源自动化处理的需求。本研究在借鉴这些研究经验的基础上提出了一套适用于档案领域的知识库自动化构建方案。首先,在知识抽取阶段,以预训练语言模型为基础,融合档案领域词表、字符级特征等,引入少样本学习机制,最大限度地利用模型标注数据,缓解档案领域高质量标注语料匮乏的问题;然后利用高质量训练语料融合多任务学习设计的一种联合学习框架,将命名实体识别、关系抽取、属性抽取、事件抽取等多个子任务高效结合,通过共享编码层和交互学习,相互促进、协同优化,大幅提升档案文本的知识抽取质量。其次,在知识表示环节,利用预训练语言模型强大的语义理解能力,从海量档案语料中自监督学习知识的上下文分布式表示,挖掘词汇、概念层面的隐式泛化知识。

  2.2.2 语境信息的提取与表示

  语境建模模块是从用户特征、档案元数据、问答历史等多个维度入手,通过图神经网络、预训练语言模型等方法学习语境的动态特征,从而达到充分考虑问答语境,根据用户的具体需求生成匹配的输出结果。展开来讲,首先,在用户画像方面,本模型在下游任务方面采用基于图神经网络的用户表示学习模型,通过融合用户的历史检索行为、兴趣偏好等相关信息,利用节点聚合和图卷积训练生成用户的低维语义表示向量,以供构建用户个性化建模机制。其次,本模型融合预训练语言模型对档案元数据(如标题、部门、时间、关键词、主题等)进行编码,提取档案的全局语义特征,能够从档案自身的角度解释用户的搜索需求,并为后续问答提供更加精准、全面的参考依据。在问答历史学习环节,本模型采取基于双向长短时记忆网络(Bi-LSTM)对每轮问答的问题和答案分别进行编码,捕捉词序结构和语义信息,然后通过跨轮次的语义传递和累积实现上下文语境的连贯性建模,使对话更加连贯。在完成各环节任务后,通过融合策略将用户画像、档案背景、问答历史的表示向量拼接为统一的语境表示向量关键维度,实现不同特征视角的相互促进和补充,进一步提升语境建模的效果,从而提升后续模型对语境的感知和适应能力。

  2.3 知识库与语境信息的融合策略

  知识库与语境信息的有效融合是档案文本生成式问答的关键所在。本研究结合当前的相关研究,提出了一种端到端的跨模态融合范式,通过语义交互和动态协同的双重机制,实现知识库与问答语境在语义层面的深度整合。具体的融合策略有以下几点:首先,在语义交互层面,由于知识库的检索需要生成式人工智能在完全理解用户问题之后自动生成检索关键词,进而转化成知识库能够理解的特定检索语言,因此该策略能够自适应地学习不同粒度下语义片段之间的软匹配与融合权重,然后通过分层递进的语义交互方式,充分挖掘知识库与问答语境的关联性特征,使得后续生成的答案能够从两个互补视角获得语义增强,完成高质量交互问答机制。其次,在动态协同层面,由于用户的动态问答需求,需要进一步考虑“知识—语境”交互的时序动态性。因此,本模型通过引入双通道Transformer编码器,将跨模态融合表示划分为语境通道和知识通道,确保了在答案解码阶段的注意力分布情况,自适应地调节语境信息和知识信息的贡献权重,使得解码过程能够根据语境与知识的动态相关性灵活调控信息流,最终生成兼具上下文连贯性和知识相关性的答案文本。

  参考文献

  [1] 许剑颖 , 冯桂珍 .ChatGPT赋能档案服务 : 技术特征、应用场景与实现路径[J]. 山西档案 ,2023(6):111-120.

  [2]刘浏,齐月,刘雏菲,等.计算人文下的古籍引书研究及全文本知识库的构建[J].情报学报 ,2023(12):1498-1512.

  [3] 王阮 , 安俊达 , 关心惠 . 新文科背景下档案学科发展的机遇、挑战与路径[J]. 档案学研究 ,2023(6):25-32.

  [4] 牛力 , 黎安润泽 , 刘慧琳 . 融合、延展、重构 : 物理与数字双空间业务转型视角下的档案信息技术应用思考[J]. 档案学通讯 ,2023(5):19-27.

  【基金项目】教育部职业院校文化素质教育指导委员会“2023年度高等职业教育美育教学研究”课题“中国特色社会主义思想指引下高职院校美育课程思政实施路径研究”(课题编号:2023MC036)。

  【作者简介】赵莹莹(1985—),女,汉族,河南焦作人,河南地矿职业学院讲师,硕士,研究方向:汉语言文学、职业教育。