福建:运用人工智能技术搭建开放审核模型

发布时间:2024-02-01 14:21:15被阅览数:584 次信息来源:《中国档案》

  文/黄建峰  颜梓森  张枫旻  戴敏

  目前,传统的档案开放审核模式已愈来愈不能适应国家综合档案馆海量馆藏档案开放审核工作要求,无法有效满足社会公众日益增长的档案信息利用需求。因此,提升档案开放审核的效率和质量,推进档案开放利用工作转型是时代和社会发展的必然要求。

  近年来,福建省档案馆基于馆藏档案数字化成果,重构档案开放审核流程,探索运用人工智能技术搭建开放审核模型,研发建设了“基于数字档案的人工智能档案开放审核系统”。通过系统对档案开放审核值进行智能推荐,并在工作实践中不断对模型进行训练优化,提升推荐的准确率,有效提高了档案开放审核效率和档案利用水平,为更好地服务党和国家工作大局、服务人民群众提供了重要保障。

  基础条件

  《“十四五”全国档案事业发展规划》中对加快推进档案开放工作作出具体部署,并要求加强大数据、人工智能等新一代信息技术在数字档案馆(室)建设中的应用。省档案馆高度重视档案信息化工作,始终把现代化建设作为档案馆发展的重点,依托“数字福建”建设实践,以档案信息资源社会共享为目标,遵循“存量数字化、增量电子化”原则,通过政府专项资金的持续投入,大力推进馆藏档案资源建设。同时,明确要求新接收进馆的纸质档案,必须移交一套相应的数字化副本或电子档案。目前,省档案馆馆藏档案数字化率达99%以上,共有案卷级目录数据90万条、文件级目录数据810万条,原文数据6108万画幅。在推进档案数字化扫描的同时,对数字化副本进行了基础的OCR识别,为档案实现智能化管理奠定了坚实的资源基础。

  档案开放审核工作需按照有关工作要求和规定,对海量的文本信息进行整理鉴别,确定是否面向社会进行开放。福建省档案馆在吸收多年开放审核工作经验的基础上,对馆藏档案进行深入调查摸底,收集整理了近600个敏感词,并联动省公安厅网安部门吸收了部分当前网络敏感、关键字词,设计制定了开放审核档案关键词表,建立了档案开放审核动态管理敏感词库,这为引入人工智能技术进行档案开放审核奠定了规则基础。

  此外,随着现代信息技术的飞速发展,特别是新一代人工智能技术的发展,OCR识别、自然语言处理(NLP)等与人工智能领域相关技术的应用,为新时代档案管理工作科学化、智能化提供了强有力的技术支撑,也为构建“基于数字档案的人工智能档案开放审核系统”提供了技术保障。

  系统构建

  系统构建分为算法选型和功能设计两部分。

  1.算法选型

  选择合适的人工智能算法是构建“基于数字档案的人工智能档案开放审核系统”的重要前提。从自然语言处理领域来看,档案开放审核大致属于“文本分类”问题,目前已有不少模型在该问题上取得较好的效果。但相对于互联网上海量的训练数据,当前档案部门能够用于进行训练的较好的“数据化”档案文本数量相对不足,因此,采用规模适度的模型更加适用,也方便进行调整和优化。

  (1)OCR识别算法的选择

  OCR识别是开放审核工作的“预处理”环节,其输出文本直接关系到下一步开放审核人工智能学习的效果。当前通用的OCR算法中,基于CRNN+CTC的文字识别算法既适用于规则文本,也适用于不规则文本,比较适合档案行业文本既有手写体,又有规范印刷体的特点。它可以将OCR中的文本序列进行识别和转换,以实现对数字档案的文本信息提取和识别。CRNN(Convolutional Recurrent Neural Network)模型由CNN和RNN组成,CNN用于特征提取,RNN用于序列建模和输出。CTC(Connectionist Temporal Classification)是一种损失函数,可以将OCR中的不定长文本序列映射到确定长度的输出序列中。因此,基于CRNN+CTC的文字识别算法可在特征提取基础上处理不定长文本序列,同时还能够保持输出的准确性和完整性,这与档案行业的情况是相适应的。

  此外,系统还采用了基于神经网络的深度学习模型,通过对图片进行OCR识别并进行数据化处理,结合NLP进行行、段落等格式类型的版面分析处理,以及印章定位、去除印章等操作,以提高模型的精准度。

  (2)文本分类算法的选择

  文本分类算法是档案开放审核人工智能学习的核心算法。项目对神经网络和传统机器学习算法进行了测试和评估,最终选择了朴素贝叶斯算法作为分类器。

  在神经网络的分类算法中,选择了先进的ERNIE模型作为分类器的预训练模型的基础模型进行测试。ERNIE模型是一种基于Transformer的预训练模型,具有很强的语义表示能力和泛化能力。在进行文本分类时,可以根据实际需要进行微调,以达到最佳效果。

  在传统机器学习算法中,先使用TF-IDF算法作为文本特征提取算法,然后采用了朴素贝叶斯算法来作为分类器。朴素贝叶斯算法是一种基于贝叶斯定理和特征独立性假设的分类算法,可以通过先验概率和条件概率计算来进行文本分类。朴素贝叶斯算法的优点是简单快速,可以处理大规模数据,同时对于高维度的文本数据也有不错的效果。

  在档案开放审核工作中,文本数据质量参差不齐,特别是当前OCR识别的文本数据的准确率较低。因此,经过测试与比较,在以上两类算法中主要采用了朴素贝叶斯算法,该算法的容错性较高,能够取得较好的分类效果。

  2.功能设计

  在算法选型基础上,要结合技术特点重新设计工作流程,并根据该流程设计系统功能予以实现。传统的档案开放审核系统一般仅对开放审核的条目进行敏感词高亮提醒,流程较为简单,且与新技术应用融合度不高,已不能满足当前开放审核工作要求。因此,在总结了传统档案开放审核工作经验的基础上,结合人工智能技术优势,项目“重构”了一个规范的档案开放审核系统流程,覆盖馆内档案开放审核工作全流程,同时预留档案形成单位或者移交单位接口,可实现档案开放审核“会同机制”下的各形成单位或移交单位线上审核。人工智能档案开放审核系统流程如图1所示。

1.jpg图1  人工智能档案开放审核系统流程图

  根据该新流程,系统主要设计实现了以下功能:

  (1)智能分库

  将待审核的档案导入系统后,由系统在后台自动启动预处理工作,提取档案信息文本,在关联PDF后进行人工智能分库,将待审核的档案自动划分为“拟涉密库”“拟非密控制库”“待定库”和“拟开放库”4个库,为下一步人工进行开放审核工作提供基础。同时,根据敏感词库,对导入系统的档案目录和原文进行敏感词自动高亮标注。

  (2)任务分工

  当前开放审核工作分工更加细致,因此需要更加灵活便捷的任务分配手段。系统支持自动或手动方式的审核任务分配,分配支持按卷或按件分配至各审核员,也支持任务转移等功能。同时设计批次任务统计图表等,帮助开放审核管理人员直观掌握批次任务动态。

  (3)开放审核界面设计

  开放审核界面以档号及条目为依据,点击具体的条目即可看到对应的全文,同时在条目中出现系统自动推荐的档案开放审核匹配度推荐值。查看全文时会同步出现敏感词的高亮展示及右侧对应的敏感词列表,不同的敏感词对应不同的高亮颜色,如选择某个敏感词,即可展现该敏感词在全文的出现情况。直观的页面为开放审核时的具体判断提供了便利,敏感词表及频度的显示,也为开放审核工作提供了“定量”依据。

  (4)开放审核流程设计

  系统支持开放审核流程的定制,根据开放审核工作实际需要,一般分为初审、复审和终审,以及提交档案形成单位或者移交单位接口进行线上会审。每个审核步骤中的审核结果和审核依据都留存记录,并且可以填写审核意见。

  (5)审核抽查比例设置及自动调整

  在复审和终审过程中,“涉密档案库”和“非密控制档案库”可通过采用抽查比例和准确度相关联的抽查率方案确定比例来复审,也可100%全查。特别注意的是,在复审过程中,如出现较多复审结果与初审结果不一致的现象,系统会自动调高复审的抽查比例,以确保审核的一致性和准确性。“开放档案库”则默认逐件全部复审。

  训练优化

  在“基于数字档案的人工智能档案开放审核系统”中,开放审核模型是整个系统的核心部分,直接影响着开放审核人工智能推荐的准确率和效率。在系统构建基础上,需要不断对模型进行训练、测试和优化。具体流程如图2所示。

1.jpg

图2  开放审核模型训练、测试和迭代更新算法工作流程图

  1.构建训练数据集

  构建训练集是训练模型的关键步骤,需要根据实际情况选择合适的数据,并进行筛选和处理,以形成适合训练的数据集。在本系统中,档案数据标注的过程与传统的数据标注有所不同,每个训练样本的标签都直接从原数据库字段中读取,包括开放审核结果和分类信息等。这种方式避免了二次标注,也能够确保标注的准确性和可靠性。由于各个全宗不同年代的数据OCR识别率存在较大的差距,为提高模型训练的精准度,采用了以下步骤:

  (1)数据筛选:将时间为20世纪80年代之前的控制类、开放类档案和识别率低于85%的数据剔除,筛选出相对识别率较好(85%以上)的模型训练和测试数据。

  (2)数据分类:将筛选出的数据分为开放类和控制类两种。

  (3)数据标注:直接从数据库中读取每一个档号数据对应的开放审核结果,为每个数据添加相应的标签或类别信息。

  (4)数据处理:对于标注后的数据进行处理,例如去除噪声、纠错、标准化等操作,以提高数据的质量和准确性。

  (5)数据划分:将处理后的数据划分为训练集和测试集,通常采用交叉验证的方法,以确保模型具有泛化能力和可靠性。

  2.模型算法测试

  使用训练集中的数据,分别对朴素贝叶斯和ERNIE算法进行测试,并计算预测正确数和预测准确率。

  3.模型调整与迭代升级

  为了提高模型的准确性,针对测试中存在的问题进行了系统性的调整和优化,主要做了以下工作:

  首先,模型的准确性受到OCR识别率的影响,特别是由于20世纪80年代以前的手写体档案识别正确率较低,导致了一些误判的情况。为此,省档案馆通过优化OCR的算法和使用更高精度的OCR引擎来提高识别率,并对极少量无法识别的数据采取手工标注的方式来进行补充。

  其次,原有数据集中存在着样本不平衡的情况,即某些类别的数据比其他类别的数据数量更多,这也会导致模型的准确性受到影响。为了解决这个问题,采取了数据平衡化的措施,即对样本量不足的数据进行“过采样”或者对样本量过多的数据进行“欠采样”,使得每个类别的数据量大致平衡。

  此外,在模型的迭代过程中,还实时根据测试效果进行不断优化。首先,训练第一个版本的模型,并对数据进行预测,根据预测结果加快人工审核的进度;然后,依据人工审核后的实际结果进行再训练和迭代,不断地优化和提高模型的性能和准确性。同时还采用了增量学习的方法,即在已有的模型基础上,只使用新增数据来进行训练,从而提升模型迭代更新的效率。

  经过多轮的数据训练测试,最终形成适用于档案文本领域的审核开放、控制类分类模型。该模型基于文本自动校正预处理、文本数据挖掘技术TF-IDF算法、贝叶斯分类算法模型进行分类,在能基本保证OCR识别准确率的情况下,控制类预测准确率接近100%,开放类预测准确率接近60%,整体的预测准确率约80%,经过迭代学习后预测准确率可达90%,算法模型速度快、易部署、效率高。

  总结展望

  “基于数字档案的人工智能档案开放审核系统”经过初始研发到不断训练实践及调整优化,于2021年12月全面投入福建省档案馆档案开放审核工作。该系统实现了档案开放审核全流程在线处理,智能统计分析关键词大数据,按用户需求生成各类报表台账,智慧化人机交互,适应各平台数据对接转化,解决了原来档案开放审核工作需要调阅档案实体、各类目录,登记管理各流程台账,线下移送各环节审核意见,过程留痕管理缺失等等问题,将开放审核从“半自动模式”升级为“全智能模式”。根据实际工作测算,开放审核工作效率提升3倍以上,有力推动了档案开放审核工作进度,为落实新修订档案法关于开放审核工作要求提供了技术支撑。

  “基于数字档案的人工智能档案开放审核系统”虽然极大地提升了档案开放审核工作效率,但在当前环境下仍然存在一些问题,诸如部分早期档案为手写体,OCR识别率比较低,影响了人工智能的判定;各类统计功能还有待进一步完善加强;开放审核各环节之间的留痕功能有待进一步拓展等,这些,将在系统迭代中进行补充完善。

  同时,可以从开放审核领域的系统研究和建设入手,不断探索人工智能技术在档案工作中广泛应用的可能性。未来,由于人工智能技术在文本乃至图像、音视频处理等方面的显著优势和不断发展,将与档案工作有更多相互结合的应用场景。如在档案编研领域,可从海量档案信息中收集主题相关的信息,生成初步的文本供人工进行下一步的编辑;在查档利用方面,提供友好的交互界面,方便用户通过自然语言描述查档需求,提升档案服务的工作效率及亲和度等。这些都需要继续深入探索研究,以新技术赋能档案工作,以档案工作数字转型带动新技术应用落地,从而充分发挥档案数据资源要素的优势,持续推动档案工作服务中心大局和社会民生。

  作者单位:福建省档案馆

  责任编辑:王辉