NLP技术在档案工作数字转型中的应用研究

发布时间:2025-02-21 08:44:31被阅览数:174 次信息来源:《中国档案》

  作者:徐钦梅戴敏

  新时代档案工作面临着数字化、智能化、创新化等发展要求和挑战,亟须进行转型升级。《“十四五”全国档案事业发展规划》提出了“信息化与档案事业各项工作深度融合,档案管理数字化、智能化水平得到提升,档案工作基本实现数字转型”等重要任务和目标。这就要求加快推动档案工作转型,特别是数字转型,以适应新形势下社会经济发展和人民群众需求变化。

  在数字转型中,人工智能技术是重要的驱动力和支撑力。以自然语言处理(Natural Language Processing,NLP)技术为代表的新一代人工智能技术正在重塑各行业生态并引发广泛关注。档案中存在大量文本信息,这使得其与NLP技术的发展相契合,档案工作数字转型亟须NLP技术提供新的工具和能力,从而实现业务重构和智能升级。

  现状分析

  NLP是当前人工智能中最具代表性和前沿性的一个领域。近年来,在深度学习等方法的推动下,NLP取得了突破性进展。特别是基于大型语言模型(Large Language Model,LLM)的BERT、GPT等方法,在各种自然语言处理任务上都取得了显著效果。2023年以来,ChatGPT带来的“智力涌现”成为代表性事件,其在文本生成方面的“创造性”能力引发各方关注。与此同时,国内外各种相关NLP不断涌现,其场景应用快速拓展和深入,典型代表有百度的“文心一言”、科大讯飞的“星火大模型”等。

  档案工作数字转型是将数字技术应用到档案工作的相关领域,从而改变档案资源形态和档案工作模式的变革过程。其涉及的信息技术可大致分为数字化技术、数据化技术、可视化技术和智能化技术等。其中,NLP技术属于智能化技术领域,建立在数字化和数据化等基础上,是档案数字转型技术中的顶层和核心。

  当前,档案工作数字转型总体还处在起步阶段。从先进技术在档案领域的应用来看,档案部门在新技术特别是前沿技术上的尝试有限,特别是由于未能深度结合业务进行融合、重构,新技术应用对原有业务的提升还未能达到理想程度。因此,要加快全面数字转型和智能升级,就必须结合档案工作“收、管、存、用”各环节,将各类信息技术特别是前沿技术如NLP技术与档案业务深度融合,再造流程、提高效率、实现转型。

  档案工作的各环节,无论是收集、整理、鉴定、统计和利用等,都涉及大量的文本信息的处理。同时,档案与其他信息的区别主要在于其原始记录性和凭证性,因此更强调信息的原始性、价值性和安全性等。

  目前对档案工作数字转型影响最大的技术很可是NLP技术,因为其能够应用于档案行业的范围最广,而且其能够带来的业务变革深度最大。特别是档案中的大量信息要实现赋能社会各项工作,亟须进行相关的分析处理工作,NLP的出现为此提供了重要的能力和技术支撑。另一方面,当前NLP的发展本身也需要从海量的数据中学习各种知识,促进其智能不断成长,档案中蕴含的海量信息对其能力的发展具有重大意义。因此,从档案工作处理对象、能力需求及NLP技术的能力属性、发展趋势来看,加快NLP技术在档案领域的规划、部署和应用,持续探索NLP技术与档案业务各环节的深度融合,能够抢占新科技“赛道”,促进NLP技术本身的发展和档案工作数字转型目标的实现。

  同时,NLP技术在档案工作数字转型中的应用也可能给档案部门带来对档案真实性的冲击、对数据安全和知识产权的威胁等风险以及对数据治理的要求、对信息化素养和信息服务能力的挑战等。

  整体架构

  通过对现状的简要分析,结合档案工作“收、管、存、用”模型,可初步构建NLP技术在档案工作数字转型中应用的整体架构。

2.jpg

NLP技术在档案工作数字转型中应用整体

  如图所示,统一搭建基于NLP技术的人工智能“大脑”,然后根据NLP的核心供给能力将“大脑”功能大致分为理解、生成、交互、集成、汇聚等,再根据“收、管、存、用”具体业务场景开发相应的功能及接口,既实现统一、集中、高效管理,又可通过各类场景应用不断促进“大脑”的整体发展,从而加速推动档案工作数字转型。同时,“收、管、存、用”业务在统一“大脑”的治理下将趋于一体化,管理将渗透整个档案工作流程,特别要在收集的源头就实现数据治理,为后续各类应用提供有力支撑;利用和收集则相互促进,从“用”的角度反过来去规范收集过程,且从收集到利用的链条和周期也将缩短,最终或将形成基于统一“大脑”的“档案一体化全过程智能收、管、存、用”。

  NLP大脑的核心能力为:“理解”和“生成”是NLP的基础能力;“交互”建立在理解和生成的基础上,但由于该功能经常使用,特别是在NLP系统中,可与用户直接以自然语言形式交互,因此将其作为一项独立的能力;“集成”是指通过NLP集成各类数字技术来执行具体任务的能力;“汇聚”则是指通过NLP进行数据分类、提取和汇聚等,实现数据和知识共享共用的能力。以上各项能力都需要通过“学习”不断发展完善。

  “收、管、存、用”的各项具体应用都架构在以上各能力的组合及适配上。收集方面,主要用到理解、交互和汇聚能力;保存方面,主要涉及交互和集成能力;管理和利用方面则可能涉及上述所有能力。

  应用及实现

  基于NLP技术在档案工作数字转型中应用的整体架构,简要阐述架构下的具体场景应用及实现。

  1.档案收集

  档案收集泛指档案的来源渠道,包括了归档和移交接收等工作内容。从当前来看,NLP技术在档案收集方面的主要应用有两点:一是归档范围和保管期限的判定。该判定过程属于文本理解范畴,因此可运用NLP技术来解决。照此也可解决档案室向档案馆移交接收时划定范围的问题。二是档案收集过程中与档案来源方的交接。档案收集中涉及向社会征集、较为多元化的档案来源渠道,其沟通与反馈是一项重要的工作。

  其实现方法如下:运用NLP的理解、交互和汇聚能力,构建档案智能收集工具,在理解保管期限和归档范围表、认识档案价值等的基础上,进行自动化、无感式收集,获取相关的材料信息并分类集中起来,向档案工作者推荐或报送审核,最终由档案工作者确认是否归档或纳入收集范围。同时,针对来源广泛且复杂的征集工作,可在确保信息安全的情况下将其部署在网络上,方便相关档案形成或持有者直接沟通对接。

  通过以上方式,可大幅提升档案收集的及时性、准确性、完整性和自动化水平。

  2.档案管理

  档案管理的范围较广,贯穿档案工作全流程,此处的档案管理与收集、保存和利用相区别,主要指档案的日常管理,包括整理、比对、分类、著录、挂接、检索、统计等,是使档案信息有序化和实施有效控制的过程。具体的场景应用及实现如下:

  (1)档案分类组织

  档案分类、有序组织是档案管理的重点和难点。在《数字档案馆系统测试指标表》和《综合档案馆业务建设评价标准》中均有具体要求。主要是指可对数字档案(包括电子档案和数字化成果)制定分类方案并依此进行有序管理。其中涉及大量基础工作,包括对档案进行分类、标注、审核等,也包括档案的开放审核等。

  其实现方法如下:利用NLP的理解和生成能力,构建档案数据治理工具,对档案进行分类、标注、信息提取等工作,必要时再提交人工审核;也可对档案目录与档案原文、OCR文本等进行识别、比对和校对等,确保其一致性,或者根据要求自动生成档案目录、摘要以及相关档案专题等;还可通过NLP的交互能力与档案管理者对话,方便进行档案的统计、检索、挂接等日常管理工作,提供实时的反馈和建议,提升档案资源的规范化和有序化水平。

  (2)档案实体管理

  在数字转型过程中,要求相应提升实体档案管理水平。当前实体档案管理过程中也涉及大量的数字设备,NLP与各类数字设备具有天然的契合性,因此,可通过NLP的集成能力构建智能档案管理辅助系统,促进各类实体档案相关系统“自然语言化”,实现档案实体管理的自动化和智能化。例如,与图像识别、语音识别、手写识别等技术结合,方便与档案管理者进行交互;与区块链、物联网等技术相结合,实现对档案实体的安全保管、利用和追溯;与机器人、无人机、虚拟现实等技术相结合,实现对档案场馆的智能管理和服务。

  (3)档案知识共享

  档案工作数字转型涉及各领域知识,档案本身也存在着海量的信息,因此在档案管理过程中需要及时对相关的知识进行关联整合,实现传承和创新。运用汇聚功能对档案的内容信息及档案管理相关知识进行学习,建立档案知识共享库,促进档案知识管理的发展,可为档案工作人员成长提供学习平台,为档案科研提供借鉴性观点和相关测试等,从而推动档案知识传承和科技创新。这类知识库需要一定的数据规模,因此应制定相应的共享管理办法,基于共享框架进行数据的统一管理、分析和利用。

  3.档案保存

  档案保存是指对档案进行系统存放和安全保护。特别对于数字档案,一般是按照保管期限的要求,制定并实施保存策略,选择保存介质,进行分类存储和备份,还包括对档案数据进行格式转换、定期检测和迁移等工作。运用NLP技术设计档案智能保存系统,可与档案工作人员进行交互,并集成数据同步、检测、保真、备份等功能,实现对档案数据和保存设备及介质的“统一、实时、智能”管理。NLP可根据不同类型档案的保存要求,结合介质特性,帮助制定档案保存策略,提供档案存储备份的建议等;与档案保存软件、设备作相应接口,在理解保存策略或档案工作者的具体要求后,按照相关规范对档案进行格式转换、定期检测、定期备份、数据迁移、数据恢复等处理,确保档案的安全有序保存。应当注意的是,在执行以上各项具体操作时,需要强调的是NLP技术的准确性而非创意性,因此需要进行针对性训练,并由人工进行审核,使其符合档案保存的规范要求,避免产生误操作。

  4.档案利用

  档案工作的最终价值体现在服务上。而NLP技术的强项也在信息服务方面。在数字转型过程中,NLP技术可为档案服务注入创新内涵,其场景应用较为广泛:

  (1)档案智能个性服务

  利用NLP技术构建智能查询系统,实现档案信息和相关知识的快速检索和定位。该系统应实现输入自然语言或语音等便可直接沟通查询,从大量的档案数据中获取准确、完整、有用的信息,并标注该信息相关的档案来源以便查考,或为用户出具有效凭据。同时,在保障个人隐私和信息安全的前提下,可根据用户的不同需求和偏好,定制信息资源的类型、表现形式和系统的服务功能等,为不同利用者提供满足个性化的最优利用。还可通过NLP技术收集分析用户反馈,帮助档案部门进行优化改进。该应用可改变传统档案查询模式,大幅节省用户和档案人员的时间和精力,提升自主服务水平。该应用的前提在于相关档案都要实现数据化。

  (2)智能咨询接待管理

  档案利用工作中存在大量日常咨询和接待管理,部分档案馆已在进行咨询接待系统的研发和应用,但囿于传统处理技术的有限性,特别是无法创意生成文本和进行上下文语义关联等,系统的实际交互效果较差。基于NLP技术的最新功能,可通过语音、文字等多种形式与用户沟通,自动确认用户身份、与用户预约、为用户进行引导、形成用户利用登记记录等,还能以数字人、机器人等形象与用户接触,提升交互友好度,拓展咨询反馈的服务范围和成效,帮助工作人员从日常的繁杂工作中解放出来。

  (3)档案智慧编研开发

  编研开发属于档案深度利用的范畴,涉及档案信息的搜索、分析、整合、编辑等,专业性强,难度较高,其智能化对档案工作数字转型意义重大。传统工具一般只能实现部分辅助编研功能。而最新的NLP技术具有的创意文本生成能力,使其可根据给定的主题和要求,深入搜索并挖掘档案信息,创意生成相应的文本、图像甚至视音频,并做好相应的档案引用标注,供档案编研工作者参考;还可将已编好的各类档案编研成果作为素材供其学习,从而逐步替代初步编研,提高档案编研开发的效率和水平。同时,通过咨询NLP对档案内容及编研成果的分析和理解,档案工作人员可更好地认识档案的内涵和背景,为档案的编研开发提供助力。

  (4)互动式档案信息传播

  传统档案信息传播的方式较为被动,尽管设有展览、网站、公众号等,但交互性和趣味性较差,一般只能被动欣赏。在档案知识管理成果的基础上,利用NLP技术构建在线档案智能交互系统,与用户进行有趣、有挑战性的对话,向用户展示各类公开档案并提供相关的背景信息和观点等,同时向用户传授各种档案知识和技能,如档案基本概念、分类整理、保护方法等,还可根据用户权限、认识水平和访问进度等进行适当调整,改善传统档案信息传播的形象,增进用户对档案事业的认知程度。

  建议与展望

  NLP技术为档案工作数字转型提供新助力的同时,也带来新的问题与挑战。因此,在档案工作数字转型过程中,档案部门要立足于实际职能和发展定位,加强对NLP等新技术的研究,充分了解其特点规律、发展前景、适用场景,找准业务切入点,切不可盲目跟风。在具体应用过程中,要加强监督和管理,明确使用目的和范围,健全完善相应制度、规范和标准,特别是应对信息的真实性、敏感程度和涉及的知识产权等进行审查,在保障档案数据真实、完整、可用和安全的前提下充分发挥其优势。NLP最新技术的出现,正在改变人类思考和处理问题的方式,人机协作的相关实践和研究也日益增多,档案学理论、档案研究领域、档案人员知识结构等也将被“重构”。可以预见,未来档案工作会越来越趋向于“信息化”和“数字化”,档案与信息、数据等的界限会越来越模糊,相关技术和工具的运用也将日益深入。档案工作者应在转型中思考未来核心供给能力,以及档案不同于一般数字信息的特征,持续关注保障档案的原始性、凭证性、人文性和长期保存价值等,让档案成为信息浪潮中维护信息真实性等的最有力“仲裁”,从而为档案工作赋能高质量发展、服务中心大局提供持续动力。

  参考文献:

  [1]中共中央办公厅,国务院办公厅.中办国办印发《“十四五”全国档案事业发展规划》[EB/OL].[2022-03-02].https://www.saac.gov.cn/daj/toutiao/202106/ecca2de5bce44a0eb55c890762868683.shtml.

  [2]朱光辉,王喜文.ChatGPT的运行模式、关键技术及未来图景[J].新疆师范大学学报(哲学社会科学版),2023(4).

  [3]周智博.ChatGPT模型引入我国数字政府建设:功能、风险及其规制[J].山东大学学报(哲学社会科学版),2023(3).

  [4]张夏恒.类ChatGPT人工智能技术嵌入数字政府治理:价值、风险及其防控[J].电子政务,2023(4).

  [5]陆伟,刘家伟,马永强,程齐凯.ChatGPT为代表的大模型对信息资源管理的影响[J].图书情报知识,2023(2).

  作者单位:福建警察学院、福建省档案馆

  责任编辑:王辉