人工智能技术在档案划控上的应用研究

发布时间:2024-07-22 20:21:18被阅览数:215 次信息来源:《中国档案》

  文/安徽省档案馆课题组

  目前,各级国家综合档案馆馆藏档案数据量庞大、门类繁多,由于没有进行有效的开放审核,导致无法及时向社会提供针对性利用,档案开放工作亟须改进,以满足人民群众对档案日益增长的需求。

  安徽省档案馆、讯飞智元信息科技有限公司共同承担的“人工智能技术在档案划控上的应用”课题于2018年4月获批国家档案局科技项目正式立项,2022年11月通过国家档案局验收。2023年12月,项目成果获得国家档案局优秀科技成果二等奖。该项目通过文本分类、语义理解、机器学习等人工智能技术,构建档案智能开放审核系统,实现对档案内容的深度解析,为开放审核工作提供辅助,有效提高档案开放审核准确率和效率。

  研究内容

  1.档案文本分词算法

  研究通过文本分词算法对档案内容进行解析识别。传统的分词方法难以理解在特定语境中的档案专业术语和行业特有的表达方式。课题组对档案文本分词算法进行了研究分析,将连续的语句序列智能地切分为更小的短语单元,通过这种精细的切分,算法不仅能够准确地识别出档案文本中的关键短语,还能够有效地辨认名词以及命名实体,如人名、地名和组织机构名等,为后续的文本处理和信息提取打下坚实的基础。

  2.档案开放审核方法

  研究档案开放审核理论和实践方法。通过对档案开放审核领域专家在工作过程中的专业知识和专业方法的学习训练,让机器不仅能理解档案内容的深层语义,还能更加深入准确掌握如何有效地识别和分析关键信息,根据学习理解的专业知识和方法,高效,准确地辅助档案开放审核。

  3.档案开放审核知识、规则

  研究档案开放审核专业知识和工作标准规则。通过对已完成开放审核的档案数据进行解析、理解,提炼核心关键词、敏感词和知识点,结合人工开放审核结果,智能关联公共词库、文库、百科数据和政策规则要求,建立符合实际工作场景的档案开放审核知识库和规则库。

  4.档案智能鉴定引擎

  研究辅助档案开放审核的智能鉴定引擎。基于自然语言处理、图像识别、语义理解、机器学习等人工智能技术,对档案内容进行自动解析、深度理解、智能分析,结合已有的知识库和规则库数据,给出档案开放审核结果建议、形成审核结果的原因及依据。

  5.档案智能开放审核系统

  研究档案智能开放审核系统。通过智能鉴定引擎,对政治、历史、经济、科技等各类档案内容进行快速准确分析,识别并输出关键信息,辅助人工进行开放审核,同时提供手动标注功能,建立“机器辅助+人工审核”的标准化、智能化档案开放审核系统。

  研究成果

  1.研发档案文本分类模型

  文本分类模型采用了中文预训练模型BERT-wwm,通过大量通用语料训练模型,实现对通用语言知识的学习,再针对性地对特定任务进行迁移学习。

  基于被标注的训练数据集合,根据档案所处的不同历史时期,档案中不同词语的含义,相关敏感词、近似词,综合考虑所对应的应用场景,通过机器找到文档特征和文档类别之间的关系模型。利用关系模型对新数据进行类别判断,对三级字表以及生僻字的应用情况,如人名、地名、科学技术用语、异体字、繁体字、通假字、人文符号、电子密码等进行识别、归类区分。

  基于BERT-wwm预训练模型搭建深度神经网络模型,针对档案数据特点在模型中引入“题名”“原文”“目录”等文本特征,辅助模型进行分类预测。将文本分类从基于知识的方法逐渐转变为基于统计和机器学习的方法。

  2.研发智能开放审核算法引擎

  通过先进的数据采集技术,从档案中获取必要的数据集。这些数据包括目录、元数据、文本内容以及其他相关信息。为了深入理解档案内容,采用自然语言处理(NLP) 技术,特别是文本分词算法,将档案内容分解为可理解的语言单元,从而为后续的分析提供基础。

  引擎还采用一系列开放审核策略,确保档案的保密性和开放审核的合规性。这些策略包括:通过识别文档中的关键词和短语,筛选出包含特定信息的内容,以便进行开放审核结果确认;引擎内置一套规则,基于规则匹配档案中的目录、结构和内容等,给出匹配结果。为了实现这些策略,智能开放审核算法引擎结合了语义理解和机器学习等技术,通过对大量档案数据的分析和学习,不断提高开放审核的准确性和可靠性。基于开放审核策略,在给出开放审核结果时,不仅提供了机器开放审核的结论,还解释了推荐结果的原因,这种透明的解释机制有助于用户理解和信任系统的开放审核结果。

  此外,引擎还具备自我学习和适应的能力。通过持续地对关键数据进行标注和反馈,逐步提高引擎的精准度,保证开放审核的质量。这种持续的学习过程也为后续的开放审核操作提供了有效的辅助,使得引擎能够应对不断变化的数据和需求。

  3.研发档案智能开放审核系统

  研发的档案智能开放审核系统,在对已有的档案数据执行开放审核任务后,获取开放审核结果,包括开放审核原因和基于规则要求的开放审核依据,通过持续学习训练,不断提高档案开放审核准确率。

  (1)开放审核工作流程构建

  系统具备采集标注、规则管理、知识管理、多人多级审核功能。改变传统人工开放审核模式,再造“机器划控+知识推荐+规则采集+流程审核”一体化的档案辅助开放审核新流程。

  (2)档案开放审核标注

  档案开放审核过程中,支持开放审核专家对档案内容进行手动标注,标注信息同步反哺智能开放审核算法引擎供学习训练,逐步提高开放审核的准确度,保证开放审核质量,为后续开放审核操作提供辅助。

  (3)规则管理

  依据档案开放办法及工作要求等政策文件内容,针对开放审核实际工作场景,将开放审核政策要求细化成可供机器学习并执行的规则条款,形成开放审核规则库。

  (4)知识树管理

  通过规则形成知识点并关联关键词,通过标记开放审核结果形成知识树,通过专家录入(接入)第三方知识数据库建立不同时期、不同档案门类,不同控制缘由的关键词、关键规则库,形成档案关键知识信息库。

  该项目开发的档案智能开放审核系统不仅能够高效地分析和处理档案数据,还能够通过自我学习和适应,不断提升开放审核的准确度和效率。系统的应用将大大推动档案开放审核的现代化进程,为相关领域的研究和实践提供有力的技术支持。

  创新突破

  1.构建机器智能开放审核引擎

  通过自然语言处理、语言技术平台LTP分词、文本分类技术,实现不同类型档案的分词、实体抽取;通过语义分析、机器训练,训练档案原文中词汇、短语在特定维度的向量表示,并利用词向量模型计算词相似度,映射档案目标主题分类各维度的概率值,实现初步文本分类;通过最小化损失函数迭代模型参数,参考机器开放审核结果负样本修正模型,辅助规则点处理提升准确度,最终实现机器智能开放审核,构建机器智能开放审核引擎。

  2.构建档案开放审核规则库

  通过标注数据,收集规则,根据文种类型、文件分类标签对规则进行自动分类及标签化处理,并赋予开放审核结果。通过规则辅助提高开放审核准确度,降低档案开放审核工作的难度,提高档案开放审核的效率。

  3.构建档案开放审核知识库

  采用开放审核过程伴随人工采集标注的方法,获取开放审核依据规则点,机器采集公共源词条、词库、文库数据比对词条,对规则点数据知识化关联处理,生成开放审核知识点。根据不同历史时期档案形成时的历史背景,将不同内容进行主题标签分类,最终构建分级分类的档案开放审核知识库。

  4.构建档案智能开放审核系统

  通过智能开放审核系统,利用图文识别、文本分类,语义理解等技术,实现对档案内容进行解析识别、理解分析,依托机器智能开放审核引擎给出“开放/控制”结论及依据,同时对档案原文中的内容知识点自动识别,关联知识库,辅助人工审核。大大加速了开放审核规则和知识获取与理解的过程,有力保障了档案开放审核工作的质量和速度。

  同时,课题组还将先进的认知大模型技术应用于系统,通过大模型强大的理解认知能力和文本生成能力,结合深度学习和自然语言处理等人工智能技术,针对每一份档案内容进行深度理解分析与综合判断,不仅能够精准定位可能存在的敏感信息,还能精确输出更为准确的鉴定结果,明确指出生成结果的原因以及依据何种法律法规或政策规定。既确保了档案开放与利用过程中的信息安全与隐私保护,同时也为档案开放审核工作提供了科学、规范、高效的智能化工具。目前课题成果已应用于安徽省档案馆数字档案馆,建设档案开放审核AI预审模块,提供辅助鉴定,极大提高了档案开放审核效率和开放审核的准确率,减轻了档案馆开放审核的工作压力,节省了人、财、物投入。

  随着互联网技术的发展,机器学习、深度学习等人工智能技术的不断进步,特别是基于卷积神经网络的文本分类技术的出现,课题组开创性地将人工智能技术与档案开放审核业务工作有效地结合起来,对人工智能在档案管理中的应用做了深入研究,为我国档案开放审核工作探索了一条新的途径。

  下一步,课题组将依托现有的平台资源和技术优势,一方面,通过深度学习算法,理解和解析档案内容,结合预设规则和历史数据,科学地预测和判断档案的重要性和敏感性,实现智能化的档案开放审核。另一方面,借助于图像识别技术,高效识别各类非结构化档案资料,包括手写文档,特殊符号等,突破人工处理的技术瓶颈,推动人工智能技术在多模态档案资源中的深度应用,扩大人工智能技术在档案工作中的应用范围,探索“人工智能+”在档案行业各领域的新实践,加快形成档案事业高质量发展所需的新质生产力。

  [本文系2023年国家档案局科技项目获奖成果]

  责任编辑:王辉