大语言模型在古籍文献开发中的应用:机遇与挑战

发布时间:2024-11-12 08:01:21被阅览数:48 次信息来源:《山西档案》

  作者:吕婷

  摘要:随着人工智能技术的蓬勃发展,以ChatGPT为代表的大语言模型展现出了卓越的语言理解与生成能力,在自然语言处理领域掀起了新一轮研究热潮;与此同时,在数字人文领域,古籍文献面临着数字化转型与传承创新的重大机遇和挑战。旨在系统梳理大语言模型发展现状及其在数字人文领域的应用前景和最新进展,分析大语言模型为古籍文献开发带来的机遇和面临的挑战,力求实现从数字化到智能化再到智慧化的古籍保护与传承范式变革,为传统文化遗产的创造性转化、创新性发展提供有益参考。

  关键词:大语言模型;古籍文献;知识组织;智慧性保护

  近年来,随着人工智能技术的高速迭代,大规模预训练语言模型又称大语言模型,在自然语言处理领域取得了里程碑式的发展。以ChatGPT为代表的生成式大语言模型展现出了卓越的语言理解与生成能力,在问答、对话、写作等任务方面甚至可以与人类的表现相媲美,引发了学术界和产业界的广泛关注。从技术革命的角度审视,大语言模型的出现开启了人工智能发展的新时代,正在对社会科学的研究范式和生产方式产生深远影响。与此同时,在数字人文领域,以古籍文献为代表的传统文化遗产正面临着数字化转型的重大机遇和挑战。一方面,亟须先进的数字化手段来破解海量古籍文献带来的人力资源不足的困境,实现资源的规模化整理、深度开发和广泛传播。另一方面,语料稀缺、古今语言悬殊、版本复杂等古籍文献自身的特点对人工智能技术提出了较高的适用性要求。近年来,研究人员开始从传统的机器学习模型过渡到基于深度学习的BERT等预训练语言模型引入古籍文献的自动分词、断句、实体识别等细粒度处理环节,取得了良好的应用效果。诸多相关研究为大语言模型在古籍领域的进一步应用奠定了基础[1]。然而,当前大语言模型在古籍文献开发中的研究与应用仍处于探索阶段,诸如大规模、高质量的古籍领域预训练语料、可能出现不可解释性,引发学术伦理和知识产权等问题。

  1  大语言模型在古籍文献开发中的应用现状

  1.1 基于 BERT 等预训练语言模型的古文开发现状

  近年来,以BERT、RoBERTa、ERNIE等为代表的大规模预训练语言模型在自然语言处理领域取得了重大突破,展现出了优越的语义理解和知识抽取能力。这些模型通过在大规模无标注语料上进行自监督学习,能够习得语言的通用表征,再经过少量标注数据进行微调,即可实现模型泛化能力迁移至下游任务,大幅提升了建模效率和任务性能。受此启发,诸多研究人员开始探索将大语言模型引入古文自然语言处理相关领域,以期解决传统机器学习模型面临的特征工程复杂、数据稀缺等问题。例如,针对古文分词任务,研究人员基于BERT模型进行了广泛尝试,通过对比不同的文本嵌入方式、模型优化策略,在多个古籍数据集上取得了优于BiLSTM-CRF等模型的性能表现,展现了预训练语言模型在捕捉古文词汇特征方面的优势。在古籍命名实体识别任务中,有学者通过融合字、词、句子等多粒度语义信息,改进了BERT的文本表示能力,实现了人名、地名、时间、官职等多类别实体的精准识别,并在此基础上构建了古籍实体知识库。

  1.2 古籍智能整理平台的构建与实践探索

  古籍文献呈现出浩如烟海、版本纷繁等特点,给当前文献整理工作带来巨大的挑战。传统的人工校勘、编目、标点等方式不仅耗时耗力,成本昂贵,而且难以实现规模化推进,阻碍古籍数字化进程。近年来,研究人员开始探索古籍智能整理平台的构建,力求将大数据、人工智能等现代技术与古籍整理业务流程进行深度融合,实现古籍资源的规模化、自动化和智能化处理[2]。例如,北京大学团队“吾与点”基于预训练语言模型构建了针对古籍文本的驱动云端智能标注平台,能够实现古籍的实体标注、词性标注、关系标注等功能,有效提升了古籍知识要素的提取效率和准确率。又如,字节跳动团队利用大语言模型技术构建的古籍数字化平台——“识典古籍”,能够实现古文语句翻译、全文内容总结等古籍智慧查阅功能。这些实践表明,通过大语言模型等人工智能技术赋能,古籍智能整理平台已初步具备规模化生产应用能力,但在细分领域的知识整合、全流程优化等方面仍有待进一步突破。

  1.3 大语言模型在古籍知识挖掘与组织中的应用

  古籍蕴含着丰富的历史知识、文化思想和艺术价值,是人类智慧的重要结晶。然而,由于古籍所蕴含的知识分散隐藏在海量文献当中,给知识的深度挖掘与关联组织带来挑战。大语言模型所展示出的文本处理能力为破解这一难题提供了新的可能。一方面,大语言模型具有强大的语义理解和知识抽取能力,能够从海量非结构化古籍文本中自动提炼出人名、地名、时间、事件等多门类的知识单元,并通过共现分析、实体链接等方法揭示知识元间的内在联系,从而实现知识的结构化表示与组织。另一方面,大语言模型能够作为智慧化知识问答系统,通过从构建的古籍知识库中检索与用户问题相关的知识片段,生成连贯、易懂的答案文本,从而实现人机交互式的古籍知识问答服务。例如,南京农业大学所构建的“荀子”古籍大语言模型,通过链接20亿字的大型语料库,能够实现智能标引、信息抽取、诗歌生成、阅读理解等复杂的古籍处理任务,大幅改善了模型对古籍知识的表示与匹配能力,在古籍语义理解任务上取得了优异表现[3]。为此,可以展望,大语言模型在古籍知识挖掘与组织中的应用将不断深化,有望成为传承和创新优秀传统文化的重要方法和手段。

  2  大语言模型在古籍文献开发中面临的机遇

  2.1 高质量的指令微调技术提升大语言模型的领域适应性

  尽管大语言模型展现出了强大的语言理解和知识抽取能力,但由于其主要在通用语料上进行大规模数据的预训练,因此在面对古籍文献这一特定垂直领域时仍存在一定适应性问题。针对这一问题,高质量的指令微调技术为提升大语言模型在古籍领域的适应性提供了新的思路。指令微调技术主要是指在预训练模型的基础上,引入领域专家知识对模型进行针对性训练,使其更好地理解并完成特定领域任务的技术。展开来讲,领域内的研究人员精心设计了面向古籍方面的提示词模板,并使用标注的领域指令数据集对通用大语言模型进行微调,能够在下游任务中有效地将通用语言知识与古籍专业知识进行融合,从而获得一个对古代汉语语言特征更加敏感的领域模型。

  2.2 大语言模型与知识图谱等结合促进古籍知识的关联化组织

  在数字化开发与利用过程中,古籍资源多以隐性、碎片化的形式分散在海量非结构化文本中,大语言模型的强大语义理解能力和价值挖掘能力给深层次知识的关联组织和系统化利用提供了新的思路。在语义理解方面,大语言模型能够通过领域知识再训练,实现从海量非结构化古籍文本中自动抽取出人名、地名、时间、事件等类别知识要素,揭示知识要素间的内在语义联系,实现对古籍知识的结构化表示。大语言模型和知识图谱的有效结合,能够给大语言模型抽取形成的碎片化知识提供更高层次的语义关联,使之形成逻辑清晰、覆盖全面的知识体系。近年来,学界开始积极探索将大语言模型学习到的古籍知识映射到知识图谱之中,通过本体构建、知识融合、语义推理等一系列方法,构建起连通性强、内涵丰富的古籍知识库,大幅提升了知识组织的广度和深度。此外,大语言模型能够与因果图谱、事理图谱等细粒度知识组织技术进行融合,实现对古籍知识的多层级、多视角关联与融合,并以可视化技术使其内在逻辑结构得以充分展现。

  2.3 大语言模型赋能古籍文献的数字化转型与传承创新

  在国家文化数字化战略背景下,推动中华优秀传统文化创造性转化和创新性发展已成为文化遗产保护传承的重要使命。作为传统文化的集中载体,古籍文献的数字化转型和传承创新显得尤为迫切和重要。大语言模型所展现出的智慧化逻辑为古籍数字化转型注入了新的动力。一方面,利用大语言模型的智能化处理技术,可以打通古籍资源采集、加工、整理、共享等数字化流程的诸多环节,有效破解古籍数字化进程中的技术瓶颈,推动实现规模化生产、精细化加工和智能化应用;另一方面,大语言模型所具备的多模态文本生成能力,为古籍创意开发和价值转化提供了丰富的素材和手段,使得优秀传统文化可以通过与现代科技的跨界融合焕发出新的生命力,进而在动漫、电影、文创、游戏、知识问答等多元应用场景中实现创新表达、活态传承。

  3  大语言模型在古籍文献开发中遇到的挑战

  3.1 古籍语料匮乏制约领域适应性模型建设

  当前所展示的大语言模型的性能在很大程度上取决于预训练语料的质量和规模。然而,与现代汉语如白话文相比,古代汉语在词汇、语法、语义、短句、分词等方面存在诸多特殊性,加之,古籍历史久远、版本繁杂,获取高质量、大规模的古籍训练语料面临着诸多难题。一方面,虽然目前已有一些公开的古籍文本数据集如《全唐诗》《四库全书》等,但总体规模有限,且存在简繁混杂、异体字、文本噪声等问题,难以实现古籍领域大模型的训练和构建。另一方面,古籍注释、词义消歧等高质量语料的人工构建需要投入大量专业人力,成本高昂、周期漫长,这在很大程度上限制了面向古籍领域的预训练语言模型的构建进程。鉴于此,当前,古籍领域亟须探索跨学科融合的古籍语料建设新模式,需综合运用数字人文、自然语言处理、机器学习等技术手段,通过迭代优化的方式逐步扩大古籍相关语料规模并提升语料的整体质量,为训练高性能的古籍领域预训练模型奠定数据基础[4]。

  3.2“黑箱”推理机制影响模型的可解释性与可控性

  尽管大语言模型在古籍智能处理方面展现出了巨大潜力,但其内部工作机制仍然处于一个“黑箱”,存在一定的不稳定性和高风险性,这是当前大语言模型研究的热点话题。首先,鉴于大语言模型是基于海量数据进行端到端学习,其特征提取和知识表示方式高度隐式化,缺乏明确的符号逻辑结构,因此对于模型输出结果的可解释性较差,尤其难以解释其何以得出某个具体输出的内在推理过程。其次,当前市面上的大语言模型普遍存在“幻觉”问题,所得出的答案缺乏准确的信息来源,这对于古籍研究中对知识准确性要求极高的场景是难以接受的。因此,如何确保大语言模型在古籍领域能够得到更广泛、更可靠的应用是当前所面临的一个阻碍。为此,一方面,需要加强从认知机理、数学原理等角度对大模型工作机制的研究,通过构建合理的解释框架增强其透明度和可解释性。另一方面,可借鉴知识图谱的增强检索技术,与知识库之间建立连接,实现大模型生成结果的可溯源、可校验,从而提升其可信度和可控性。

  3.3 存在版权归属不清与伦理风险并存的现实困境

  大语言模型的训练依赖于海量非结构化文本数据,涉及大量作品的著作权、个人隐私等问题。首先,在古籍领域,绝大多数古籍文献已不受著作权保护,在客观上降低了利用古籍数据训练大语言模型的法律风险,但仍然需要尊重、保护古籍文献的科学价值和人文价值。其次,大语言模型从海量文本中习得知识的方式在一定程度上削弱了原始文本的版权归属,难以判定参考来源和确定各方权益。再次,如何防止大语言模型生成有悖伦理道德、偏离历史事实的有害内容,如何防范大语言模型被滥用于古籍伪造、知识歪曲等不当用途,也需要在技术和制度层面进行深入探讨和严格规范。因此,要建立健全法律法规,明晰数据产权、隐私保护、知识共享等方面的制度边界,为大语言模型在古籍领域的应用营造良好的制度环境。

  参考文献

  [1] 张丹 . 大语言模型与档案资源开发 : 前景、挑战与应对 [J]. 山西档案 ,2023(5):108-111.

  [2] 牛力 , 金持 , 黎安润泽 . 大模型在档案工作数智转型中的应用 : 新机遇、新模式和新转变 [J/OL]. 档案学通讯 :1-11[2024-06-08].https://doi.org/10.16113/j.cnki.daxtx.20240511.001.

  [3]王东波,刘畅,朱子赫,等.SikuBERT与SikuRoBERTa: 面向数字人文的《四库全书》预训练模型构建及应用研究 [J]. 图书馆论坛 ,2022(6):31-43.

  [4] 王昊 , 王蕾 . 中华古籍活化的实践框架与发展路径 [J/OL]. 中国图书馆学报 :1-26[2024-06-08].http://kns. cnki.net/kcms/detail/11.2746.G2.20240513.1605.002.html.

  【作者简介】吕婷(1981—),女,汉族,河南南阳人,河南科技学院图书馆馆员,硕士,研究方向:网络阅读与图书馆服务。