发布时间:2024-03-14 14:03:55被阅览数:448 次信息来源:《四川档案》
□廖勇军
随着现代信息技术的不断发展,信息量越来越大,电子文件的数据呈现指数级的增长,过去人工处理文件的传统做法与现有需求越来越不相适应。基于此现状,四川省档案科学技术研究所结合现有的档案整理相关标准规范,通过实践经验总结,梳理了现有档案整理的工作现状,结合人工智能技术的文本分类算法、深度学习等技术,研发了“基于人工智能技术的档案整理及数据验收辅助系统”(以下简称:自动档)。该系统在推广过程中主要运用于档案整理和数据验收,截至发文日期止,已辅助完成300万件的整理任务。同时,对档案数据验收也起到了很好的辅助作用。
1 现状与问题
当前阶段档案在归档整理过程中,主要依赖人工对归档文件进行分类排序和保管期限的判定。在档案移交进馆的过程中,同样依靠人工来抽检审核验收,海量的数据,所耗费的时间、精力都十分巨大。在实际操作过程中,存在如下三个方面的问题。
1.1 文书档案鉴定规则表述具有模糊性
国家档案局发布的8号令和10号令两份文件是我国档案鉴定实践最重要的依据性文件。但这两份文件属于总览性、指导性文件,在兼顾大局的基础上,细节上的判断的标准则体现出模糊性和笼统性的表述。比如,8号令在具体的条款中有“重要的”、“一般性”抽象的表述。抽象的表述作为分类依据,增加了档案鉴定人员主观性判断。实践中对哪些是一般性,哪些是重要性,完全由档案鉴定人员的主观判断;同一人在不同时间做出的结论都可能出现差异。在这种差异下,档案整理工作很难达成一致,导致整理浪费人力、物力资源。
1.2 文书档案鉴定效率低、准确率不稳定
现阶段,对保管期限的判定须依赖鉴定人员逐一阅读全文进行判断,鉴定效率受制于人工的阅读效率制约。更重要的是对文书档案鉴定工作不仅需要档案工作人员基于档案的专业知识、经验,而且对该立档单位内部机构职能职责以及职能活动流程、内容、重要性、甚至文件形成等多维度信息进行综合分析判断,这对鉴定人员的专业性提出很高的要求。但实际过程中,档案鉴定、分类排序的工作由外包服务公司完成,存在专业人员缺乏,综合素质水平普遍偏低等实际问题,进而导致工作效率低、准确率不高,甚至影响到档案的查询利用。
1.3 文书档案整理的各环节重复劳动、无法共享阶段思维成果
档案整理外包服务是很普遍的现象,立档单位对档案整理外包服务公司进行选择并指导工作,但进馆审核仍是档案馆。业主单位和审核单位不一致,导致外包公司多头领导,各方对整理档案的要求和细节上的差异,业主单位审核过后需移交档案馆,到档案馆审核验收又需要再次逐份阅读来进行判断,这就造成了资源浪费。流程涉及各部门,因缺少统一规范,流程执行状态和进度信息无法获取,跨流程、跨部分的信息就成孤岛,流程执行推动只能依靠传统的催办督办方式。建立档案馆、立档单位及档案外包公司三方之间的协同机制,将大大的提高档案归档整理的效率和质量,将审核监督、验收的角色提前拉入档案整理的流程中,实现过程管理,避免出现审核不通过以后的无效修改成本。
2 档案整理及数据验收辅助系统关键技术
通过与档案馆、立档单位、档案服务公司多方调研,并结合实践工作,梳理流程,运用人工智能技术提高档案整理的效率和准确率,最终实现“1+1+2”的模式,即“一”套全周期流程管理系统(管理流程协同),“一”套基于人工智能技术的档案鉴定系统(实现辅助鉴定),“二”套算法模型(词库规则算法和AI模型嵌入档案鉴定系统内),如图1所示。
图1 档案整理流程
将档案整理数据流、审核流集中于流程管理系统中,同时将立档单位、档案馆的审核协同集中,提高协同效率。在流程管理系统中集成档案辅助系统,将档案整理工作和档案馆审核工作交给人工智能系统完成,人工负责辅助审核即可。词库维护系统和模型训练系统作为辅助鉴定的内核,支撑辅助系统完成档案整理工作。
词库维护系统是通过将档案鉴定的基础知识翻译成机器看懂的语言建立“词库”,通过确定性算法进行关键词匹配的判定系统。模型训练系统是利用已有的档案数据进行机器学习形成的AI模型进行判定的系统。两套系统互相利用支撑,彼此互补。
2.1 全周期流程管理系统
“一”套全周期流程管理系统(后简称流程系统)是基于平台思维开发,可用于多个用户进行操作,外包公司、立档单位及档案馆都可以作为系统的用户。适用于规范管理档案整理的全周期,覆盖从外包公司整理、立档单位审核、档案馆验收三方之间的全流程,实现档案整理过程中三方主体单位线上审核流转验收的“协同机制”。“协同机制”下打破原来直线流程的三方的壁垒,形成以档案项目为核心的三方“项目组”(如图2)。
图2 全周期流程管理
立档单位分工协调并组建新项目,项目组将档案的条目数据上传至此系统,再通过“档案整理辅助系统”对档案条目做自动化分类排序和保管期限的判定。经项目组调整后可提交给审核人员进行再次审核。审核人员发现问题及时在系统里标注修改意见,审核完成后可再次返回进行修改,直到达到业主单位审核组的要求之后在系统里流转给档案馆,档案馆通过“档案数据辅助验收系统”中的模型对提交来的档案条目计算评分,达到入馆要求则验收通过。
2.2 档案鉴定系统
“一”套基于人工智能技术的档案鉴定系统(实现辅助鉴定)是调用词库匹配算法和AI模型实现档案条目数据的分类排序和保管期限判定。如图3所示,鉴定系统以独立进程的形式运行在服务器中,通过消息队列与流程系统进行通信。用户在流程系统中上传项目的档案条目数据(或数字档案文件),该数据将通过消息队列发送至档案鉴定系统。系统代替人工来进行分类排序和保管期限的判定,并将结果有序地返回至流程系统。人工智能的介入,可实现每分钟上万条的处理速度,这是传统的人工签定无法实现的,在人工智能完成鉴定的基础上,将结果反馈到全周期流程管理系统,再进行人工审核及流转,极大地提高了档案整理的效率。
图3 鉴定系统流程图
“二”套算法是将词库匹配算法和AI模型同时调用、协同兼顾,保证了鉴定准确率不断提升的能力。AI模型算法的黑盒效应、偏见、解释性差等特点让人工智能的应用不被信任,而针对关键词库匹配的确定性算法系统则有效的弥补了人工智能的解释性差和黑盒效应。
2.3 AI算法模型
卷积神经网络是近几年众多科学领域的研究热点之一,特别是在模式分类领域。由于该网络避免了对图像的复杂前期预处理,可以直接输入原始图像,因而得到了更为广泛的应用。卷积神经网络应用在档案分类的原理如图4所示。判定的核心原理是通过监督训练实现文本的分类,涉及文本预处理、文本向量化和文本分类模型。
图4 档案分类原理图示
卷积神经技术搭建完成后,再将海量的档案数据作为训练人工智能模型的“养料”。机器通过对历史数据的学习,可逐渐形成对某一特定领域的理解,即形成“人工智能模型”。目前,基于人工智能技术的档案整理及数据验收辅助系统已经具有覆盖20个针对单位的模型库,如工商行政局、档案馆、国企投资机构等模型。
2.4 基于词库的规则算法
基于机器深度学习的“人工智能”注重关联关系,但人工智能缺少因果分析,解释性差。为了弥补黑盒效应和数据偏差,建立基于词库的规则算法系统作为补充。该系统基于统计学和概率论,对文件的数据进行分析和计算。采用朴素贝叶斯对文件进行初始判断,并采用回归分析计算文件内容的相似度,从而更加精准的实现文件的判断。
规则系统以国家档案局发布的8号令、10号令为依据,提取语法规则特征进行鉴定。例如:归档文件“某某被评为优秀员工的通知”,通过鉴定系统判定为30年。在规则系统中,通过关键字“优秀员工”,并将立档单位的级别锁定,如果是县级以下单位,并是本单位表彰,判定30年。
为了满足该系统的拓展性和特殊性要求,可以根据每个立档单位、各专业领域等建立独有的规则算法模型。规则系统是将档案行业的基础鉴定理论知识转化为“计算机的语言”输入系统,进行确定性的判断的机制。按照年度-问题分类方式搭建机关事业单位、企业、项目档案的分类框架。采用这种模式,立档单位可以根据企业自身的特殊情况,对规则系统进行设置,不断精进系统的准确性,确定性。
2.5 两套算法的兼容与协同
发挥两套算法的优势,规避其劣势,那就是协同兼容机制,该机制提供给审核人员最后的审核权限,并通过审核修正来给计算机模型进行优化。
当两套算法的结果相同,保存30年的鉴定结果确定为“正确”。审核人员可以通过词库匹配算法的解释理解系统的判断结果。(词库匹配算法中会显示对应的分类提示,如奖励、30年的关键词进行解释判定结果)。当两套算法的结果不相同,AI模型的智能判断结果在系统中是概率,审核人员通过概率、词库匹配的结果进行综合判断。审核人员针对有异议的项目校对修正,形成一个闭环。
每一次的人工修正都是对AI模型的一次优化。随着档案数据的不断修正和增加,模型的准确率也会不断逼近100%。目前,本系统能达到的准确率已经达到85%以上的水平,鉴定能力可达到2-3年档案整理人员的整理水平,基本实现智能化鉴定和验收工作。
3 结束语
“人工智能+档案”用于智能化档案整理和数据验收将大幅度提升工作效率,促进了档案整理外包服务标准的统一化,做到“轻整理、重检索”的整理原则。双系统鉴定模型和AI技术的结合,有效规避各自的劣势,提高整个系统的效能。通过双系统的结合运用,减少人工智能技术造成的偏差、以及因人工智能黑盒造成的信任问题,同时有效摆脱仅靠人工来面对未来海量档案整理的窘境。
参考文献
[1]杨建梁.基于深度学习的数字文书档案保管期限智能化划分研究[J].档案学通讯,2021(4):108-112.
[2]李剑锋.人工智能技术在数字档案鉴定中的应用与启示——以瑞士纳沙泰尔州档案馆ArchiSelect项目为例[J].浙江档案,2022(10):36-39.
本文系2023年四川省科技厅成果转化项目“基于人工智能的档案整理及数据验收辅助系统的运用推广”(立项编号:2023JDZH0037)研究成果之一。
作者单位:四川省档案科学技术研究所