生成式人工智能在档案数字转型中的应用研究

发布时间:2024-09-03 19:56:06被阅览数:43 次信息来源:《山西档案》

  作者:黄仁彦

  摘 要:生成式人工智能是人工智能发展的前沿方向,其强大的数据驱动、端到端学习、多模态融合、迁移学习等能力为新时代档案数字化转型变革提供了新思路和新动能。通过对生成式人工智能在档案数字转型中的应用需求分析,论述其在档案数字化、智能化管理、知识挖掘、数字服务等方面的应用场景和实现路径,总结了生成式人工智能应用于档案数字转型的优势与局限,以及对未来的研究方向进行了展望。

  关键词:生成式人工智能;档案数字转型;智慧档案;应用研究;ChatGPT

  随着我国发布了《“十四五”全国档案事业发展规划》(以下简称《规划》),档案机构寻求新方法力求满足《规划》中“加快档案资源数字转型”和“推进档案信息资源共享平台建设”的要求。国家档案局也在2024年开始将加大档案工作数字化转型和现代化建设力度作为新一年工作重点之一。如何加快实现档案数字化转型成为当前研究的主要焦点。近年来,以ChatGPT为首的生成式人工智能技术在计算机科学、医疗健康、文化遗产、金融法律等领域展现出巨大的应用潜力,其强大的语义理解能力和文本生成能力为解决档案领域面临的难题提供了新思路和新技术[1]。当下,将生成式人工智能技术引入档案数字转型流程中,能够突破传统档案管理的瓶颈,实现档案信息资源的智能化处理和档案资源价值的深层次挖掘,为档案工作的创新发展注入新的动力。鉴于生成式人工智能技术的发展现状及其对档案工作的重要影响,本研究旨在系统梳理生成式人工智能在档案领域的应用需求和实践路径,研判其发展趋势和应用前景,从而推动档案事业与生成式人工智能技术的深度融合。本研究的主要内容包括:分析生成式人工智能在档案数字转型中的应用需求;总结生成式人工智能在档案数字化、智能管理、知识挖掘与服务等环节的典型应用场景,提炼其实现路径与关键技术需求;探讨生成式人工智能应用于档案工作的机遇与挑战,展望未来发展方向。

  1  生成式人工智能与档案数字转型概述

  1.1 生成式人工智能的概念、特点及研究进展

  生成式人工智能(Generative AI)主要是指基于生成对抗网络(Generative Adversarial Network,GAN),对比语言—图像预训练(Contrastive  Language-Image  Pre-Training,CLIP)、扩散模型(Diffusion Model)、Transformer等生成式模型(Generative  models),通过无监督学习或半监督学习算法来训练深度神经网络模型,从海量数据中学习数据分布特征,进而生成与原始数据分布相似的新数据的技术。与判别式模型通过学习决策边界对数据进行分类预测不同,生成式模型通过学习数据生成过程来刻画数据的内在分布规律,具有更强的表征学习和泛化能力。生成式人工智能的核心特点主要包括数据驱动:通过海量数据训练来学习复杂知识模式;端到端学习:自动提取高层特征,减少人工特征工程;多模态融合:能够处理文本、图像、音频等多种数据;迁移学习:利用预训练模型快速适应新任务等。

  通过文献调研分析,生成式人工智能的当前研究进展主要体现在以下三个方面:一是生成模型的不断改进,从VA E、GAN到Diffusion model等,生成内容的质量和分辨率识别能力不断提升;二是预训练模型的规模化发展,从BERT、GPT到PaLM等模型迭代,其参数量成倍增长,强化了大模型通用智能的能力;三是多模态学习的深入探索,从Transformer到CLIP、DALL-E等模型进阶,实现了跨模态信息的统一表征和多模态内容生成。

  1.2 档案数字转型的内涵、现状与挑战

  档案数字转型是指运用先进的信息技术,对档案进行收集、管理、利用、保存的全生命周期进行优化重塑,在提高档案工作效能的同时,实现档案治理体系和管理能力现代化的过程。档案数字转型的特征主要包括以下几点。数字化:利用新一代信息处理技术将传统纸质档案资源转化为数字化档案资源,构建现代化档案数据库,扩大信息资源的处理、流通和利用范围。关联化:利用API网络技术,打破“数据孤岛”,实现多领域档案信息资源共享与利用渠道。智能化:利用当前人工智能技术,实现档案管理与服务的自动化、个性化和智慧化[2]。目前,全国范围内的档案数字转型已取得积极进展,各省市及高校数字档案室、数字档案馆建设全面推进,智能化信息管理系统、大数据平台等不断完善,线上线下档案服务模式日益成熟。但是从当前现状来看,档案数字转型仍面临诸多挑战:海量非结构化档案资源的数字化难度大,缺乏高效的解决方案;档案数据标准规范不统一,数据质量参差不齐,数据融合关联困难;档案信息深层价值有待进一步挖掘,缺乏基于知识图谱的关联分析、智能检索与个性化推荐等创新性应用。

  2  生成式人工智能在档案数字化与智能化管理中的应用

  2.1 档案多模态资源的自动识别、提取与转写

  传统的人工录入、手动编目等方式效率低下,难以适应数智时代下海量档案数字化的需求,生成式人工智能为档案数字化提供了新的解决方案。首先,对于纸质档案文本,利用OCR技术融合大语言模型技术进行文字自动提取和精准识别。例如,基于生成对抗网络的OCR模型,有SRGAN、PaddleOCR等,构建生成器和判别器的对抗学习,有效提升对档案文本识别的精度。同时针对特定档案体裁,通过零样本或少样本学习、迁移学习等方法进行模型微调,以提高特定领域的识别效果。其次,对于档案图像等二维结构数据,通过利用基于生成对抗网络的图像修复、超分辨率等模型进行图像档案资源的智能处理,实现图像的智能补全、去水印、去模糊、照片修复等功能,大幅提升档案图像的质量,为珍贵历史影像档案的长久保存夯实基础[3]。最后,对于档案音视频资源的管理,需要利用语音识别、语音合成、视频理解等模型进行语音文本转写、字幕提取、内容摘要等。目前,基于生成式人工智能的语音识别模型如Whisper、FastSpeech等模型采用编解码器结构,在多语种语音识别任务中实现了SOTA效果,实现了高自然度的语音合成;在视频领域的理解模型如Video Swin Transformer通过在时空维度引入Transformer框架,在行为识别、场景分类等视频识别任务中具有良好的性能。

  2.2 档案多源异构数据的关联融合与统一管理

  档案的形成具有客观性和自然性,档案往往包含着海量多源异构数据,给档案的管理与利用带来诸多不便。运用生成式人工智能技术进行多模态学习和统一建模,能够打破异构壁垒,消除“数据孤岛”,实现多源档案的关联融合与一体化管理。具体来讲,异构数据关联的关键在于统一语义表征空间的构建。通过构建基于Transformer结构的多模态处理模型,如VL-BERT、Vi LT等,实现跨模态信息的联合表征学习,能够在图文匹配、图文检索等任务上取得较好效果。其次,通过利用多模态融合模型如CLIP、ALIGN等,在图像—文本、视频—文本等异构档案数据间建立精准的语义映射关系,为文本档案与非文本档案的关联利用奠定技术基础。最后,利用生成式人工智能构建领域内知识图谱,并融合增强检索RAG进行信息检索,为多源异构档案数据的管理提供新的范式。例如,基于知识图谱表示学习的TransE模型,可将实体和关系映射到连续的低维向量空间,既保留了图谱的结构信息,又赋予档案更加丰富的语义属性,为档案智能检索、推荐、问答等应用夯实基础。

  2.3 档案数字转型过程中的质量控制与智能化管理评估

  档案数字转型是一项海量的系统工程,质量控制贯穿始终。在数字化过程中,档案工作人员能够及时发现并控制数字化过程中的质量缺陷,是确保档案数字资源真实性、完整性、可用性的关键。档案数字化过程中的质量控制与智能化管理评估环节嵌入生成式人工智能技术,可以提升档案数字化质量控制的效率与精准度,为档案数字化绩效评估提供新思路和新方法。其一,传统的人工抽检方式难以全面覆盖档案资源,存在质量评估主观性强、一致性差等不足,所以引入生成式人工智能技术,能够实现档案数字化过程的自动化与精准化质量监测。例如,利用文档篡改检测模型,自动识别归档文件内容的非法增删、伪造篡改等,随后利用扫描图像质量评估模型,从噪声、清晰度、完整性等维度量化分析扫描件质量,自动诊断扫描设备故障。其二,在档案著录、编目质量的评估环节引入学习者反馈机制,增强档案数字化过程管理的规范性与溯源性。具体来讲,通过采用领域内少样本学习范式,在管理规范和专家经验的指导下训练智能评估模型,形成面向扫描拍摄、图像处理、电子文件归档、档号著录等具体业务的智能化评估框架,从数据资产管理的角度动态监测数字化各环节的规范执行度。

  3  生成式人工智能在档案知识挖掘与服务中的应用

  3.1 档案信息抽取与知识图谱构建

  档案中蕴含着丰富的历史知识和文化价值,如何挖掘档案的知识要素,构建内在联系,形成可供智能检索、关联、推理的知识库,是发挥档案信息资源效用的关键所在。生成式人工智能为档案知识挖掘提供了新的路径和方法。例如,在命名实体识别(Named  Entity  Recognition,NER)方面,传统的NER方法多为监督学习,需要人工进行大量数据标注,迁移泛化能力不足。面向基于生成式人工智能的档案领域的NER研究,通过利用大规模预训练语言模型如T5、Llama等与知识增强方法融合,通过外部知识库引入实体、关系等先验知识,解决标注数据稀缺、知识迁移等难题。基于生成式人工智能技术构建的具有档案知识特色、融通多源信息的、灵活动态的知识图谱,将是未来档案知识化管理与服务的重要基础设施。随着预训练模型、跨模态学习等新范式的发展,档案知识图谱的构建将更加智能化、自动化、规模化,为档案学科知识体系的构建、档案业务智能辅助决策、面向社会公众的档案知识服务等应用提供有力支撑。

  3.2 档案文本摘要生成与关键信息提取

  如何精准提炼档案要旨、自动生成档案摘要,是缓解当前大规模档案资源过载、促进档案资源高效利用的关键所在。生成式人工智能所展现的知识挖掘能力为档案摘要自动化生成、关键信息智能化提取带来新的技术突破。首先,在提取摘要方面,传统的基于统计、基于图排序等方法难以准确把握档案文本全局语义,摘要的连贯性和主题相关性有待加强。引入注意力机制、图神经网络等深度学习技术,能够更好地捕获档案语义特征,筛选高度概括文本主旨的关键句。其次,在生成摘要方面,基于Seq2Seq模型的神经网络摘要方法已成为主流范式,但该模型面临训练数据匮乏、生成鲁棒性不足等问题,不足以满足当前档案场域。预训练语言模型的出现为解决上述难题提供了新思路。以GPT、BART、T5等预训练模型为首的生成式人工智能通过在大规模通用语料上进行自监督学习,能够更好地理解、表达复杂语言知识,为摘要任务提供高质量的语言基础设施[4]。同时,结合档案知识库构建特定领域的档案摘要数据集,采用持续学习范式对预训练模型进行档案场景化调优,生成富有档案特色、契合检索主题的定制化摘要。最后,在关键信息提取方面,实体、关系、事件等是凝练档案知识要素的关键对象。传统的规则匹配、词典匹配等方法泛化能力差,难以应对档案语言的复杂性与领域多样性。通过采用嵌入表示、语义解析等深度学习技术,能够识别复杂档案文本中的关键信息,并引入主动学习等方法持续积累领域知识,提升关键信息提取的准确性和智能化水平。

  3.3 档案个性化检索、智能推荐与知识服务

  如何通过检索海量档案数据为档案用户提供个性化知识推荐与智慧化知识服务值得深思。利用生成式人工智能技术,通过接入档案用户画像,深度挖掘用户偏好,将档案知识服务精准推送给用户,是提升档案社会利用水平的重要举措。具体来说,首先,档案个性化检索的核心是语义理解与用户建模。传统的关键词匹配检索难以准确把握用户意图,检索结果的相关性和多样性不足。通过引入深度学习、迁移学习等方法,能够大幅提升档案检索的智能化水平。与生成式人工智能相结合的档案个性化检索模式是通过增强跨模态学习与场景化适配能力,实现融合文本、图像、视频的多源异构档案数据的关联检索,并根据政务服务、学术研究、个人泛娱乐等不同场景需求,动态调整检索策略。其次,在档案智能推荐方面,基于深度学习的协同过滤、矩阵分解等模型通过挖掘用户行为模式,在一定程度上缓解了传统推荐系统的数据稀疏问题。最后,引入强化学习的生成式推荐模型,持续学习用户反馈,不断优化生成策略,从而达到多样、丰富的档案推荐结果。

  4  结语

  生成式人工智能以其强大的数据驱动、模型驱动、多模态融合等能力,为新时代档案数字化转型变革提供了新思路、新方法与新动能,在档案数字化、智能化管理、知识挖掘与服务等方面展现出巨大的应用优势,助力档案事业突破发展瓶颈,催生新型智慧档案业态。但生成式人工智能在档案领域的应用仍处于起步阶段,在应用落地、训练资源、领域知识、伦理风险等方面还面临诸多挑战。

  未来,亟须从理论创新、关键技术、融合创新、应用场景、法律规范等方面进行持续且深入的研究,推进生成式人工智能与档案事业的协同发展。具体来讲,首先,要加强档案学科与人工智能的交叉研究,构建智慧档案馆的技术架构与管理模式;其次,要突破预训练模型、知识表示、跨模态学习等前沿技术在档案领域应用的基础理论和工程化瓶颈,形成整体化理论体系[5];最后,要统筹档案、图书、博物馆等GLAM文化遗产领域的数字化资源融合共享,聚焦重点应用场景,创新档案知识服务供给模式,健全档案大数据资产管理与人工智能伦理治理的法律规范。

  参考文献

  [1]陈艳红,李健.新一代人工智能生成内容档案身份的认定风险及规制研究:基于对ChatGPT生成内容的思考[J].档案学研究,2023(5):4-12.

  [2]肖秋会,许晓彤,向京慧.数字转型视角下欧美档案与文件管理领域的研究主题演进:以《Archival Science》2001—2018年刊文为例[J].档案学研究,2019(6):72-76.

  [3]张丹.大语言模型与档案资源开发:前景、挑战与应对[J].山西档案,2023(5):108-111.

  [4]贺谭涛,周一诺,杨璐羽.面向文化数字化的档案机构数字转型策略研究:基于Europeana《战略2020-2025:赋能数字变革》的启示[J].山西档案,2023(2):68-74,57.

  [5]闫慧.通用人工智能时代信息资源管理学科的发展方向[J].信息资源管理学报,2024(2):21-28,53.

  【作者简介】黄仁彦(1982—),男,汉族,上海人,上海师范大学档案馆馆员,硕士,研究方向:档案管理、电子档案管理及档案信息化建设。