大模型与古籍档案文化遗产数字化:价值、挑战与应对

发布时间:2024-08-06 20:02:12被阅览数:60 次信息来源:《山西档案》

  文/刘文俏

  摘 要:古籍档案是中华文明重要的物质文化载体,其价值不仅在于承载了丰富的历史文化知识,而且在于彰显了民族的文化自信和价值观念。为了实现古籍档案的长期有效保护和广泛传播利用,将大模型技术应用于古籍档案数字化保护与利用中,发挥其巨大的潜力。旨在深入探讨大模型技术赋能古籍档案文化遗产数字化保护与利用的路径设计,站在理论与实践相结合的高度,充分挖掘大模型技术在传统档案文化遗产保护与传播中的变革性作用,为推动古籍档案资源保护和文化创新利用提供有力的技术支撑。

  关键词:大语言模型;古籍档案;数字化保护;文化创新利用;智慧服务

  古籍档案是中华文明重要的物质文化载体,其价值不仅在于承载了丰富的历史文化知识,而且在于彰显了民族的文化自信和价值观念。为了实现古籍档案的长期有效保护和广泛传播利用,数字化已经成为当务之急和必由之路[1]。我国自 2007 年初启动“中华古籍保护计划”以来,以保护中华古籍、传承中华优秀传统文化为目的,古籍数字化进程不断加快,经过多年持续推进,积累了一定数字化成果。2022 年,中共中央办公厅、国务院办公厅印发了《关于推进新时代古籍工作的意见》,提出了“加强古籍数据流通和协同管理,实现古籍数字化资源汇聚共享”等发展目标。可喜成果接连涌现,但是古籍数字化工作依旧任重道远。从总体来看,当前古籍档案的保护与利用现状仍存在诸多不足之处:一是所面临的数字化任务规模庞大,耗费的人力成本、物力成本高昂;二是图像扫描质量参差不齐,影响文字识别的精确度;三是缺乏统一的元数据标准规范,制约了数字资源的整合和高效利用;四是传统的呈现和利用方式单一,缺乏创新性开发,知识内化和文化创意开发的能力薄弱。近期,以ChatGPT为首的大语言模型(Large Language Models)以其强大的认知理解能力和内容生成能力,将人类社会带入了全新的大模型时代,并广泛应用于多领域智能化文本处理任务[2]。如何将大模型与古籍档案数字化保护和利用相结合,发挥其巨大的潜力值得探究。本研究旨在深入探讨大模型技术赋能古籍档案文化遗产数字化保护与利用的路径设计,具体包括:大模型技术在古籍数字化保护环节的具体应用路径,如文字识别、元数据标注等;大模型技术在古籍智慧化利用环节的具体应用路径,如智库构建、智慧服务等;大模型技术应用的关键环节和需要应对的挑战等。本研究站在理论与实践相结合的高度,充分挖掘大模型技术在传统档案文化遗产保护与传播中的变革性作用,为推动古籍档案资源保护和文化创新利用提供有力的技术支撑。

  1  大模型技术赋能古籍档案数字化保护

  1.1 文字识别与自动校对

  文字识别是古籍档案数字化的基础环节,直接关系到后续中华智库的高质量构建。首先,传统的光学字符识别(OCR)技术应用于古籍档案数字化保护时,往往会面临诸多挑战,如字体多样、装订形式复杂、图文干扰等,导致识别精度不高,文本数据质量层次不齐。其次,OCR文本识别之后所出现的语序错乱、错字连篇、句法不工整的问题,往往要消耗大量人力进行校对来解决,数字化流程进展缓慢[3]。虽然当前基于神经网络的人工智能图像识别算法能够有效解决OCR对古籍识别存在的阻碍,但是由于模型训练需要高质量语料的构建,各方成本过大,在古籍领域不能普遍使用。然而,基于海量语料训练出来的大语言模型所涌现出来的自然语言处理能力,对文字识别与自动校对环节能够产生多重效益。具体路径如下:在OCR与大模型的融合应用环节,利用大模型的图像理解能力,对整体页面图像进行语义分割,精确识别出文字区域,过滤掉插图、装潢等干扰因素,并结合语义理解能力和上下文获得更加准确的文字识别结果;在大模型辅助文本校对环节,基于语义理解,自动识别可疑错字、生僻字词,并进行标记供人工审核,再给出候选修正建议,对古籍中特有的生僻字、错字也可给出智能修正建议,高效辅助人工校对,形成高质量文本数据。

  1.2 图像分析与智慧理解

  众所周知,古籍档案文化遗产资源除包含大量文字外,还包括各类书画、插图、装潢等,这些内容也蕴含大量重要的图像信息,对研究书籍的编撰方式、装帧形制、民族文化意识等均具有重要意义。然而,传统的图像数字化技术缺乏对这些内容的深层挖掘与分析,不足以体现出图像信息的隐形价值。相比之下,多模态大语言模型拥有卓越的图像理解能力,能够有效解决当前技术不足以应对图像深度理解与挖掘这一痛点。例如,在插图、装潢图案识别过程中,利用大模型在计算机视觉领域的能力,可以自动识别出古籍档案中的各类书画、插图、装帧图纹等元素,将其与文字内容分离,实现元素级的细粒度分割和标注,为研究古籍插图和装帧艺术奠定了数据基础,也为虚拟现实等技术在创新型文化遗产的利用中提供了素材支撑。此外,在古代书籍结构分析工作流程中,利用大模型能够对书籍整体的版式布局、装帧形制、页面元素等结构进行智能分析与理解,通过分析版心、行间距、边距等特征,自动识别目录、正文、跋文等不同功能区块,从而更好地在图文之间进行语义切换。

  1.3 智能元数据自动标注

  元数据是数字化资源的“基因密码”,是档案文化遗产开放利用、知识组织、知识服务等业务流程的关键。在古籍数字化保护环节中,智能元数据自动标注是一个非常重要的环节。然而,当前古籍档案的元数据标注工作主要依赖人工,效率低下,标准也难以统一。而借助大模型技术,可以极大地提高元数据标注的自动化、智能化水平。具体路径主要包括以下两种:第一,在实体识别与链接流程中,基于大模型的命名实体识别和实体链接技术,能够从古籍文本中通过提示工程精确识别出人名、地名、时间等命名实体,并将其链接到知识库中的相应条目,为古籍内容建立知识化语义表示;第二,在主题分类与知识抽取流程中,利用大模型的主题建模和知识抽取能力,全面分析古籍文本内容的主题类别,自动归纳主题标签,生成主题词汇集、主题描述、主题分级等主题元数据,并从中抽取出关键知识点、事件、关系等主要元素,为古籍内容的组织和检索提供重要依据。由于古籍语料的稀缺性、古籍语言的特殊性、上下文理解的复杂性等给大模型嵌入档案文化遗产领域带来了一定的阻碍,因此档案机构需要持续优化大模型的性能,并结合领域知识和启发式规则,才能够真正实现古籍元数据标注的高质量自动化。

  2  大模型技术赋能古籍档案智慧化利用

  2.1 知识图谱可视化和智能检索

  如何将海量晦涩难懂的古籍内容进行整理归类,形成可交互、可触摸、可视化的数字人文作品,以方便公众随时随地访问、查阅、使用,是当代档案领域学者着手解决的首要任务。虽然以关联数据为核心构建的知识图谱是当前档案领域知识管理的有效途径,但是随着数字化进程的深入,大规模知识图谱更新较慢,未能充分发挥其智慧化知识组织的能力。大模型所蕴含的信息处理能力是实现古籍智慧化利用的关键基础。针对大规模古籍知识图谱,通过开发基于多模态大模型的交互知识可视化系统,将实体节点和关系边自动构建智能化知识网络图谱,支持用户对感兴趣的知识点进行交互式探索,推动古籍中蕴含的丰富知识以更加直观、形象的方式呈现出来,增强知识表达的生动性。与此同时,大模型技术赋予知识图谱智慧化的检索和问答能力[4],使用户不再局限于基于关键词的粗糙查询。通过提出自然语言的问题,大模型会综合语义理解和知识推理,从知识图谱中检索并挖掘出相关知识片段并给出准确回复,而非虚假生成。

  2.2 智慧教学与个性化知识服务

  在古籍智慧化利用环节中,智能教学与个性化知识服务是大模型技术两个重要的应用路径。传统的古籍方面相关教学通常采取单向课堂授课方式,存在知识传递效率低下、缺乏互动性等缺陷。然而,通过开发出基于大模型的智能化教学辅助系统,能够针对复杂的古籍文本,进行深度语义分析和知识解构,结合计算机图形学、虚拟现实增强等手段,模拟老师角色与学生进行互动式对话教学,生成沉浸式虚拟场景和交互体验,开展针对性提问、讨论和知识评测,为学习者提供循序渐进、与年龄阅读水平相适应的专业解析和学习指导。除智能教学外,大模型技术还能为公众提供个性化古籍知识服务。大模型技术能够根据用户画像了解用户的知识需求和内在兴趣偏好,并基于此有针对性地为用户规划知识服务路径。例如,对某一历史人物感兴趣的用户,大模型技术将首先为其提供人物传记知识,再推荐与该人物相关的历史事件、著作以及评述等拓展知识。与此同时,系统还将根据用户的知识理解程度,动态调整答复的表达方式及难易程度,确保服务体验的个性化。最终,系统将积累用户动态知识画像,从而持续优化个性化推荐的精准性。

  2.3 文化内容创新开发

  在古籍智慧化利用的过程中,大模型技术能够为文化内容的创新开发注入新动能。文化内容开发是指基于古籍文献资源创造性地开发出更加丰富多元、贴近现代生活方式的文化产品和服务。在文字生成式内容创作过程中,凭借大模型强大的语义理解能力,结合古籍知识库,生成古诗文、散文、小说等丰富的文字内容,为文化创意内容生产带来新可能。此外,借助大模型的计算机视觉处理能力,对古籍中的绘画图像进行内容识别、风格分析、赏析生成等处理,从而自动识别绘画作品中的人物、景物等元素,分析其笔法、构图等艺术特色,并通过对古语音语调、表情的建模学习和基于语义理解生成内容丰富的赏析文字,以“数字艺术家”的形式为观赏者逐一诠释绘画的内涵所在。与此同时,大模型技术还可以辅助翻新修复破损的古籍绘画。通过对同类作品的风格建模和内容提取,大模型技术能够智能生成出修复图像,最大程度地修复破损,还原作品的原貌。因此,通过采用先进的多模态大模型手段,可以促使古籍文化不再局限于静态文本载体,而是拥有了生动的表现形式和互动体验,极大地拓展了其在现代社会的触达面和影响力。

  3  大模型技术应用于档案保护与利用的挑战与对策探析

  相较于传统的古籍数字化保护与利用方式,以大模型技术为驱动的古籍智慧化保护与利用之路更加契合当下信息资源管理数字化、智能化发展的趋势。通过对海量古籍文献资源进行深度知识挖掘,大模型技术赋予古籍再活化利用能力,有助于古籍的智慧化传承。尽管大模型技术为古籍文化遗产的数字化保护和智慧化利用带来了巨大机遇,但是其应用过程中也面临着通用大模型在领域内的不适配、古籍档案隐私泄露与版权纠纷、人机交互不协同等挑战。

  3.1 大模型高质量训练与动态优化

  实现档案数字化保护和利用离不开高质量大模型。训练高质量大模型需要消化大量古籍语料,但是目前公开且可用的古籍数字资源仍然较为有限。其主要原因是古籍语言的特殊性,如文言文、异体字的使用等,而且富含的典故较为隐喻,对大模型的语义理解能力提出了更高要求。因此,有必要建立严格的知识质量管控机制,整合领域知识库等外部知识源,确保高质量训练语料。另外,引入知识增强技术、多模态融合等手段增强理解深度,针对古籍任务特点优化大模型的结构和训练策略,提升其领域适用性。

  3.2 隐私保护与版权管理

  古籍作为文化遗产虽然属于公共领域的知识,但是其中可能包含一些隐私信息或有版权争议的内容,例如涉及个人隐私信息的家族史、包含相关知识产权争议的典藏机构藏品等。如果未审慎处理,这些敏感信息在进行大规模语料训练或在线智能服务过程中被泄露,将会给相关个人和家族的隐私权带来侵害[5]。古籍中有一些违背当代社会主流价值观或者政治禁忌的内容,大规模数字化利用古籍时也可能导致文化审查和监管承受压力。针对上述挑战,需要建立完善的人工审查和把关机制,在语料收集、模型训练、应用服务等全流程环节,必须引入专业的人工审查和把关环节;借助自然语言处理技术手段,自动识别和脱敏个人信息、检测潜在版权内容。对已识别的敏感实体和内容进行自动化遮蔽、匿名化或过滤处理。

  3.3 人机协作与分工优化

  首先,尽管大模型有望实现高质量自动化处理,但是目前尚未发展到通用人工智能水平,人力的加持仍然将发挥着重要的作用。当前,大模型的输出往往缺乏可解释性,不利于人工干预。其次,档案工作人员普遍缺乏人工智能素养,在指令构建环节无法有效规范输入,导致大模型未能发挥其应有的能力,从而使得人机角色分工模糊,无法发挥双方的最大潜能。基于上述困境,在大模型的引入模块需要构建标准化人机交互机制,合理划分大模型和人工的工作范畴,并开发高效人机协作工具,为人工审查、校正、标注等提供友好的操作界面和指引[6]。再次,增加人工可解释性,便于人工理解和干预大模型的各个处理环节。人机协作是大模型赋能古籍数字化利用的重要关键。只有让大模型和人类各自发挥长处、密切协作,方能最大化整体效能。最后,让技术和人文紧密结合,使古籍文化遗产在数字化和智能化的助力下焕发新的生机与活力。

  参考文献

  [1] 章燕华 . 以数智化驱动引领档案事业现代化的发展进程与实施路径[J]. 档案学通讯 ,2023(6):4-13.

  [2] 张丹 . 大语言模型与档案资源开发 : 前景、挑战与应对[J]. 山西档案 ,2023(5):108-111.

  [3] 马林青 , 谢丽 , 高玉宝 , 等 . 人工智能时代文件档案管理教育的 AI 竞争力培养探析 : 基于美国iSchools专业能力培养的视角[J]. 档案学通讯 ,2023(4):93-102.

  [4] 许剑颖 , 冯桂珍 .ChatGPT赋能档案服务:技术特征、应用场景与实现路径[J]. 山西档案 ,2023(6):111-120.

  [5] 陈艳红 , 李健 . 新一代人工智能生成内容档案身份的认定风险及规制研究 : 基于对ChatGPT生成内容的思考[J]. 档案学研究 ,2023(5):4-12.

  [6] 张婷婷 . 企业档案部门对大语言模型的使用意愿影响因素研究[J]. 山西档案 ,2023(5):112-117,107.

  【作者简介】 刘文俏(1978—),女,汉族,浙江永嘉人,浙江科技大学艺术设计与服装学院讲师,硕士,研究方向:设计艺术学、影视美学、服装艺术设计及服装营销。