大语言模型在档案实践中的应用研究

发布时间:2024-08-07 19:57:08被阅览数:149 次信息来源:《山西档案》

  文/皇甫超

  摘 要:以ChatGPT为首的大语言模型展示了数智时代的技术和应用创新。大语言模型嵌入档案领域已是必然趋势。大语言模型的应用改变了信息处理方式,使得档案与人的交互更加智能,数据获取更加精准。这对档案学科的内涵、架构以及相关人才培养和实践效果产生了重大影响。如何充分把大语言模型的核心能力应用到档案实践中是需要探讨的重点。通过探讨大语言模型在档案实践应用中的优势、困境、启示,将为探索数智时代的档案管理提供创新思路和实践路径。

  关键词:大语言模型;档案实践;ChatGPT;档案管理

  大语言模型(Large Language Models, LLM)是近年来自然语言处理(Natural Language Processing, NLP)领域的重要发展,尤其新一代对话型大语言模型——ChatGPT的问世充分展示了数智时代计算机科学、人工智能和应用语言学研究的最新创新成果。大语言模型所体现出的强大的信息加工、荟萃、整合和生成能力为档案领域带来了前所未有的机遇与挑战[1]。档案事业发展处于重要的战略机遇期,确保档案工作高质量发展成为新目标。《“十四五”全国档案事业发展规划》明确指出档案工作要积极探索知识管理、人工智能、数字人文等技术在档案信息深层加工和利用中的应用,同时加强大数据、人工智能等新一代信息技术在数字档案馆(室)建设中的应用。因此,在数智时代,从事档案工作的人员有必要密切关注大语言模型的飞速发展。大语言模型能够让档案工作人员使用自然语言与系统交互,实现利用人工智能技术生成内容,完成包括问答、分类、摘要、翻译、聊天等从理解到生成的各种任务。

  对于提供信息检索、数字资源组织等知识服务的档案机构来说,大语言模型必将为之注入新鲜活力。大语言模型可以通过提供智能搜索、智能问答、智能推荐、自动摘要与分类、智能翻译等创新场景,帮助用户获得更智能的感知、交互和知识服务等体验,为用户提供智能化、个性化、高效化的服务[2]。如何把大语言模型的核心能力充分应用到档案实践当中是本研究探讨的重点。本研究通过探讨大语言模型在档案实践中的多方面应用,为探索数智时代的档案管理提供创新思路和实践路径,加深对档案学和大语言模型的理解,并为相关领域的研究和实践提供一定的参考和启示。

  1  大语言模型在档案实践应用中的优势

  1.1 大语言模型优化档案管理

  《机关档案管理规定》将档案管理流程分为 6 个阶段,分别是形成与收集、整理与归档、保管与保护、鉴定与销毁、利用与开发、统计与移交。通过融合大语言模型强大的语言理解能力和语言生成能力,档案机构能够提高档案管理的自动化程度,优化业务流程。在形成与收集阶段,大语言模型所具备的自动识别能力能够提取电子文件中的关键信息,如文件标题、作者、日期等,快速高效地辅助机构收集、整理大量电子档案,并对海量文本进行去重、清理,从而提高档案形成的效率和准确性。在整理与归档阶段,大语言模型通过识别海量档案中的不同特征,对文件进行智能化分类、归组等业务流程;通过自动识别文档中的关键词和主题生成相应的索引和目录,从而提高档案整理的质量和效率。在保管与保护阶段,大语言模型能够通过高效指令提供安全的存储和访问控制机制,确保档案的机密性和完整性。在鉴定与销毁阶段,大语言模型能够根据机构的规定和标准,辅助档案工作人员对海量档案进行高效鉴定,确定档案的保留期限和销毁时机,自动生成鉴定结果的报告和记录,以确保档案的合规性和安全性。在利用与开发阶段,大语言模型能够根据用户的需求,提供智能化检索和查询功能,发掘档案中的潜在价值和信息。在统计与移交阶段,大语言模型自动统计和分析档案的使用情况和流转情况,生成相关统计报表和分析结果,帮助机构了解档案的使用情况和价值,从而做出档案的移交和流转决策,提高档案管理的决策能力和效率。

  1.2 大语言模型提升档案服务能力

  大语言模型的嵌入能够显著提升档案服务工作水平。在档案检索与查询服务业务上,用户通过基于大语言模型构建的智慧档案服务平台,能够更加高效地搜索和获取所需的档案信息[3]。由于传统的关键词搜索已经无法满足大规模档案检索的需求,而大语言模型能通过学习大量文本数据理解并生成各种自然语言内容,包括自然语言理解、自然语言生成、语音识别、机器翻译,以及拼写和语法检查等;通过自然语言处理捕获查询内容的语义和上下文语境,提供更加准确、关联性强的检索结果,从而提升了检索效率,降低了时间成本。除了检索与查询服务以外,基于大语言模型的智能推荐服务也为档案服务带来了巨大的改进。通过分析用户的历史查询记录和兴趣偏好,大语言模型能够绘制用户画像,生成独特的文本内容,从而提供个性化推荐服务。因此,用户在智慧档案服务平台上不仅能够发现自身可能感兴趣的档案知识,还能够发现与之相关联的档案内容。这在提升用户体验的同时提高档案的可发现性和利用价值。此外,语义分析也是大语言模型在档案服务中的重要应用。传统的档案管理系统通常只能提供简单的分类和标签,未能深入分析档案的核心内容,使用户不能够全面、高效、快速地掌握对应领域的档案全貌。运用大语言模型的语义分析、实体挖掘、知识关联等能力,能够深入挖掘档案内容的语义和上下文语境,从而自动提取出更加丰富和准确的元数据。这些元数据能够为用户提供更加全面和细致的档案描述,使得档案的组织和管理更加高效和精确。最后,基于大语言模型的档案智慧利用为档案服务带来了新的可能性。传统的档案服务通常仅仅提供了文本形式档案内容,而大语言模型则关联海量档案内容,将文本内容转化为图表、图像等可视化形式。因此,用户通过智慧利用能够以更为直观的方式了解、理解和利用档案内容。大语言模型的强大检索、智能推荐能力将极大地提高用户的工作效率和满意度,并且推动档案学的发展和应用。

  1.3 大语言模型巩固档案质量

  在数据开放共享的大环境下,如何在保障档案数据供给质量的同时,防止敏感数据泄露,已经成为档案管理部门亟待解决的问题。大语言模型技术的应用能够有效实施数据脱敏和质量控制,在档案安全保护方面起到了关键的作用。在保护档案数据的隐私和安全方面,传统人工数据脱敏工作相对繁琐且效率低下,容易出现较多疏漏。然而,经过高效、专业训练的大语言模型能够实现多种智能脱敏技术,例如数据自动加密、匿名化、去识别化等,消除档案数据中的个人身份信息,以确保敏感的档案数据不被任意传播或被未授权的个人或组织访问使用。此外,大语言模型能够遵循质量控制指令来提高档案数据的准确性、一致性和完整性。例如,通过特定的指令模式对档案数据进行验证,筛选出关键信息缺失、与事实不相符等低质量数据,确保档案数据的准确性、完整性和可靠性。总之,通过融合数据脱敏机制和质量控制能力,大语言模型能够在确保档案数据隐私的同时,为用户提供高质量的档案数据供给。这些措施不仅能够保护档案数据的安全,还能够提升档案数据的价值和应用效果,为用户提供更好的数据支持和决策依据。

  2  大语言模型在档案实践应用中的困境

  2.1 垂直领域生成结果不精确

  鉴于档案资源的独特性,目前,大语言模型在档案垂直领域模型构建方面鲜有涉及,存在语义理解和生成结果的不精确性。由于当前已公开的大语言模型训练的数据集都来自通用文本和知识,涵盖诸多领域,大语言模型可能对特定领域的专业术语、概念、知识等方面存在语义理解困难等问题。因此,大语言模型可能在档案领域的应用过程中产生不精确、不完整或有误导性的结果。档案垂直领域语言模型的构建需要针对特定的领域或主题进行深入的研究和理解,结合领域专家的知识指引和使用反馈对模型语言进行调整和优化,以便能够准确地把握该领域的专业术语、概念和语言风格。

  2.2 领域内模型评估体系不健全

  档案领域内大语言模型的评估体系不健全,值得深究。当前,大语言模型应用在档案领域内的案例相对较少,其评估体系尚未形成,如评估指标的选择和设计、评估数据集的构建和选择、评估任务的安排等,无法全面准确地评估大语言模型在处理档案相关任务时的性能表现[4]。具体来说,在评估指标的选择和设计方面,目前通用的大语言模型评估指标,如准确率、召回率和 F1 值、接受者操作特性(Receiver  Operating  Characteristic,ROC)曲线和AUC(Area  Under  Curve)值等,在客观程度上能够反映模型的计算性能,但对于处理档案领域的复杂任务来说不够全面和准确,缺乏主观、专业的评测系统。因此,借鉴通用领域的模型评估指标来构建符合档案领域任务的评估指标尤为重要,它能够更直观地反映出模型在处理档案相关任务时的表现力。此外,在评估数据集的构建和选择方面,当前的测评数据集可能存在一定的局限性,无法充分覆盖档案领域的各种任务和场景。要构建更加贴合、丰富、多样化的垂直领域评估数据集,以更好地评估大语言模型在处理档案相关任务时的泛化能力和适应性。在评估任务安排方面,可以采用领域内的人工评测和半自动评测方法,真实地反映模型在档案领域应用过程中和实际档案应用场景中的具体反应。为了提高评估的准确性、全面性和可信度,档案人员亟须开展更多研究,探索新的评估指标和方法,更好地评估档案领域内大语言模型的性能。

  2.3 模型训练算力资源不足

  大语言模型时代,智能算力成为“稀缺资产”,如何善用算力资源,发挥其最大效益,已经成为每个参与者必须面对的挑战。大语言模型在档案领域应用中同样存在训练算力资源不足的问题。鉴于大语言模型的参数规模庞大,往往需要强大的算力资源作为支撑,对海量的大语言模型训练数据集进行大规模计算,拟合出最优参数,以便在档案领域表现出良好的性能。然而,由于档案数据存在规模庞大、复杂性、多模态等特点,获取足够的高质量训练数据并进行频繁训练和持续优化变得愈发困难,因此训练大语言模型所需的大量计算资源和时间对于广大档案机构和组织是一个巨大的挑战。在训练算力资源不足的情况下,考虑采用一些策略来解决训练算力资源不足的问题。例如,在预训练模型方面,可以通过使用分布式训练技术对多台计算机进行训练,还可以通过对训练数据集进行精简和优化,减少训练所需的计算资源。此外,通过对大语言模型进行参数微调,能够在低消费级的计算资源下实现垂直领域内的大语言模型构建。总之,大语言模型在档案领域应用过程中面临算力资源不足的情况下需要考虑多种策略来实现自身的部署。

  2.4 伦理和偏见问题频出

  大语言模型在档案领域应用过程中可能存在伦理和偏见问题。首先,大语言模型可能存在隐私泄露问题。鉴于其可能处理和存储大量个人数据和敏感信息,会产生个人隐私权受侵犯和数据泄露的风险[5]。其次,大语言模型可能存在偏见问题。大语言模型的训练数据集存在歧视和不平等,会从生成内容中映射或放大偏见和不平等现象,从而在档案领域中产生不公正的结果,危害用户体验。此外,大语言模型的应用还可能导致信息过载和信任危机。通过人工智能海量生成内容,可能会削弱用户在辨别和评估信息时的批判性能力。由于模型存在的黑盒性质,用户可能会对生成的内容的准确性和可靠性产生怀疑。因此,针对伦理和偏见问题,制定严格的数据审查政策尤为关键,要确保个人数据和敏感信息得到充分的保护;对训练数据集进行审查和筛选,减少偏见和不平等的数据出现;重视大语言模型的透明度和解释性,使用户能够了解模型是如何生成内容的,并能够对其进行评估和验证。总之,这些问题的风险源自大语言模型可能输出虚假、误导性、无意义或质量差的内容,产生的危害会加剧社会对共享信息的不信任,尤其在信息敏感领域,如医学、法律、档案、政府等,可能会造成更加严重的后果。但是通过采取适当的措施和保障,大语言模型在档案实践应用中可以最大程度地减少这些问题的影响,确保模型应用的公正性、可靠性。

  3  大语言模型在档案实践应用中的启示

  3.1 构建高质量训练语料库

  通常来讲,数据质量影响模型质量,“垃圾进、垃圾出”(Garbage  in,  garbage  out,GIGO)。当前,大多数研究人员都普遍认为训练数据是影响大语言模型效果以及样本泛化能力的关键因素之一。大语言模型的高质量输出离不开高质量的训练语料库。档案领域的优势在于对数据质量的把控相对严格。因此,构建高质量训练语料库能够推动档案领域高性能大语言模型的构建。在档案实践过程中,要获取大规模、高质量的特定领域档案数据,包括收集档案文本数据,并进行数据清洗和预处理,去除低质量数据、重复数据、有害信息、个人隐私等内容,以保证数据的准确性和一致性。在数据获取过程中,需要考虑不同来源的数据,包括各种类型档案文档、报告、论文、书籍等领域特有数据。同时,需要充分了解档案数据的特点和结构,以便更好地进行数据准备工作。因此,通过在预训练阶段引入高质量专业数据可以有效提升大语言模型的任务解决能力。

  3.2 持续优化模型,建立反馈机制

  在档案实践中,大语言模型的应用已经展现出巨大的潜力。然而,为了持续优化领域内的大语言模型,并建立反馈循环机制,需要在今后的研究过程中进行深入的学术研究。首先,持续优化大语言模型的关键在于训练方案和算法的选择。例如,通过对不同训练方法如高效参数微调、迁移学习、提示学习、强化学习等来提高模型的泛化能力和表现能力[6]。鉴于档案实践过程中要实现业务处理的高效性,优化模型在推理阶段的速度和用户响应时长至关重要。通过特定的档案实践需求,明确指导模型在面对问题时逐步思考,促使模型在得出最终答案之前生成中间推理步骤,可以显著提升模型在推理任务上的表现。其次,建立反馈循环机制对于持续优化大语言模型也极为重要。通过与领域专家和实践者的密切合作,引入专家指导模型强化过程,确保模型能够更好地理解领域特定的语义和上下文语境,逐渐改进模型的性能。此外,定期评估和验证也是建立反馈循环机制的重要组成部分。通过与档案实践案例的对比和验证,识别出模型的潜在问题并加以解决。因此,持续优化大语言模型并建立反馈循环机制在档案实践中具有重要意义。

  3.3 培养高数字素养专业人才人

  工智能对档案领域产生了革命性影响。在未来的档案图景中,大多数档案工作任务可能且将被机器和算法接管,意味着档案从业人员需要成为“数据大师”“算法大师”来驾驭这些智能工具。那么,提高档案从业人员的专业水平和数字素养显得尤为重要。相关研究发现,熟悉人工智能概念的档案员与不熟悉该概念的档案员之间的差距正在出现,并强调了弥补知识和技能差距的“再培训”的必要性。因此,大语言模型在档案领域的实践应用过程中,人才培养模式需要进行创新。为了适应大语言模型的应用,档案学科需要培养学生对相关数据的处理和分析能力,掌握自然语言应用处理、机器学习和人工智能等相关技术,使他们能够充分利用大语言模型的优势进行档案实践;此外,还需要培养学生跨学科合作和创新思维的能力,以应对不断变化的档案管理需求。大语言模型在为档案从业人员的数字素养教育带来机遇的同时,也面临着前所未有的挑战。如何培养批判性思维、学术判断力、创新性思维等成为档案领域数字素养教育的关键[7]。

  参考文献

  [1] 陈艳红 , 李健 . 新一代人工智能生成内容档案身份的认定风险及规制研究 : 基于对ChatGPT生成内容的思考[J]. 档案学研究 ,2023(5):4-12.

  [2] 谢天 , 邱林 , 李雨曈 , 等 . 大模型时代的社会科学,何去何从?[J]. 图书情报知识 ,2023(6):6-9,3.

  [3] 刘泽禹 , 任越 . 智慧城市背景下智慧档案馆功能框架分析[J]. 山西档案 ,2023(3):72-79,35.

  [4] 刘倩倩 , 刘圣婴 , 刘炜 . 图书情报领域大模型的应用模式和数据治理[J]. 图书馆杂志 ,2023(12):22-35.

  [5] 王小萍 , 王万军 , 马争朝 . 大数据下档案管理安全隐私保护不确定性评估研究[J]. 中国档案 ,2023(10):54-55.

  [6] 文森 , 钱力 , 胡懋地 , 等 . 基于大语言模型的问答技术研究进展综述[J/OL]. 数据分析与知识发现 ,1-17.[2023-11-30].http://kns.cnki.net/kcms/detail/10.1478.G2.20231110.1612.002.html.

  [7] 马林青 , 谢丽 , 高玉宝 , 等 . 人工智能时代文件档案管理教育的AI竞争力培养探析 : 基于美国iSchools专业能力培养的视角[J]. 档案学通讯 ,2023(4):93-102.

  【作者简介】皇甫超(1978—),男,汉族,河南商丘人,周口文理职业学院讲师,硕士,研究方向:应用语言学。