智能语义助推档案开放审核的研究与实践

发布时间:2024-03-04 13:30:08被阅览数:540 次信息来源:《中国档案》

  文/李军  徐志国  王楠

  档案开放审核工作是档案利用服务工作的重要环节,也是开发和利用档案信息资源的必要条件。档案开放审核滞后是目前制约档案信息资源利用和价值体现的重要因素。因此,积极探索智能化开放审核,推进档案开放利用工作模式转型创新,对提高档案开放审核效率和档案利用水平具有重要意义。

  近年来,江苏省档案馆探索利用人工智能技术助推档案开放审核工作,建设优化了“基于语义分析的档案智能化开放审核系统”,以零样本、高保真、强兼容的独特优势为实现智能化开放审核奠定了坚实基础,可实现机器批量自动检测疑似需要继续延期开放的档案,逐条给出延期开放理由并留痕,从而实现即插即用、快速迭代。

  建立基于语义层次网络的档案开放审核系统

  1.引入“认知智能”

  随着现代信息技术的飞速发展,特别是新一代人工智能技术的发展,与人工智能领域相关的技术和应用为新时代档案管理工作科学化、智能化提供了强有力技术支撑。目前,业界大多采用关键词匹配技术、神经网络技术等“感知智能”技术来辅助档案开放审核。

  在人工智能领域,与“感知智能”相对的还有“认知智能”,或称为“强人工智能”,即赋予计算机自己思考和学习的能力,其学习到的能力不是反复训练强化出来的固化反应,而是与自身知识库的沟通、融合、迁移、最终接纳的结果,其对实际应用环境的响应不是简单模仿的结果,而是自身思考、推理、判断得出的结果。

  档案馆档案开放审核是一个非常适合“认知智能”发挥特长的领域,省档案馆采用的为档案开放审核建立语义知识库的方法就是遵循的这一技术路线。

  语义工程技术在文本智能领域具有较大的领先性。通过建立语义知识框架,实现对档案内容的高保真解析,并指导语义知识库的建设,由此创造的语义鉴定模型和系统,能够解决业界现有关键词NLP技术易漏判、误判和神经网络技术需要大量样本标注的难题,无需大量数据大规模训练,能够保障数据安全,适用于数据敏感的档案行业,并且可根据需求灵活修改,不断优化审核算法和鉴定规则,并及时生效,兼容未来长期开展鉴定工作的需要。

  2.建立语义知识库

  解决方案的核心任务之一就是建立语义知识库。从国家档案局公布的《各级国家档案馆馆藏档案解密和划分控制使用范围的暂行规定》中的20项档案划控原则出发,将档案馆专业划控开放鉴定人员的专业知识转换成为语义知识库模型和计算机语义鉴定规则,创造档案馆开放审核的语义规范、框架、模型和知识库,为国家公布的概括性鉴定原则建立了具象化的鉴定标准,解决了国家鉴定原则太抽象、鉴定人员主观性强导致鉴定标准不统一等问题。为省档案馆提供了可参考的标准化的鉴定规则,给数字化档案的智能化鉴定奠定了基础。

  3.语义层次网络构建

  语义层次网络是一种专门为解决对不准问题而设计的语义模型。它不同于泛化的语义网络,语义层次网络只包括相邻层级之间的关系,不包括同层级的任何关系,即:同层级节点之间相互独立,也不包括任何跨节点关系和跨层级关系。

  语义层次网络是解析抽象档案开放审核条件的基础。语义层次网络建设得越完备,抽象开放审核条件就可以被解析得越具体,越容易被计算机匹配成功。同样,语义层次网络也是在档案中从抽象字面语义挖掘具体语义的基础。

  语义层次网络可以使档案原文和开放审核条件中逻辑距离(即抽象和具体之间的层次)看似很远的词组之间在任意语义层次中实现对齐,完成匹配,以此高效解决档案开放审核工作中对不准的问题,同时对误判和漏判也有所改善。

  4.基于语义层次网络的档案开放审核系统

  为了充分发挥语义层次网络在开放审核中的作用,开发出“基于语义层次网络的开放审核系统”,总体框架如图所示。具体包括6个步骤:

1.jpg

基于语义层次网络的开放审核系统总体框架图

  (1)档案预处理

  包含电子档案导入和OCR解析两个环节,这一步是后续所有语义分析模块的基础。

  档案预处理模组把非文本档案转化为纯文本档案,非文本格式档案主要包括PDF、OFD格式和各种格式的图片档案。

  档案文本解析模块把纯文本档案转化为一个可以进行语义分析的文件。其有两个子任务:一是恢复纯文本档案的版面格式,例如,正确划分段落、句子,正确区分标题、正文等;二是对文本的每个自然句进行自然语言解析(NLP),包括切词、词性标注、词语聚合、短语识别、命名实体识别、事件识别等。

  (2)数据校核

  在档案开放审核和开发利用之前,通过智能化系统实现数据质量核查,并生成核查报告。

  (3)密件识别

  系统自带密件识别标准。可对待审核档案进行涉密筛查,对数字化加工工作查漏补缺,发现并标记涉密档案。

  (4)智能开放审核

  以开放审核语义知识库为运行依据,系统对不涉密档案自动检测。

  档案语义分析是核心模组,分为格式语义分析、浅层语义分析和深层语义分析,其中,浅层语义分析又分为全文检索和字面语义分析。

  格式语义分析模块能够将档案版面位置所隐含的语义“翻译”出来,如识别密件的密章或“内部材料”“机密”等标密格式,使之成为开放审核线索之一。在格式语义库的支持下,其分析结果直接输出至基于语义分析的开放审核模块。

  浅层语义分析主要依靠字符串匹配技术实现。语义主要由词义体现,没有层次。如果一次只匹配一个词,则为全文检索。全文检索采用业内成熟模块,在纯文本档案的基础上做,由一个关键词库支持。如果一次匹配多个字符串,并集齐字符串的上下文信息用以分析句子乃至整个档案的语义,则为字面语义分析。字面语义分析较之全文检索,语义失真程度明显更低。

  深层语义分析是在语义层次网络的不同语义层中的语义匹配,由此可以挖掘字符串名下隐含的深层语义。深层语义分析和鉴定条件解析都由基于语义层次网络的语义知识库支撑。进行开放审核时,输入的鉴定条件往往非常抽象,不能为计算机直接使用。条件解析模块将简单抽象的鉴定条件在语义层次网络中解析,不断细化、具体化,直到计算机从档案原文中提取的语义线索容易与之匹配,由此形成鉴定条件库。

  格式语义分析、浅层语义分析和深层语义分析的结果都会输入“基于语义分析的档案开放审核”模块,在鉴定条件库的支撑下,实现文书档案语义与鉴定条件语义的相互匹配,完成对档案的开放审核,输出不可开放的档案(集)。

  在输出不可开放档案的同时,会将候选开放的档案移交人工审核。经人工确认无误,系统输出可以开放的档案(集)。

  (5)“开放可信度”算法

  依据各档案馆以往人工鉴定经验和对待鉴定档案的要求,开发优化“开放可信度”算法。

  (6)结果输出

  开放审核后的档案放入待人工复核目录,逐条给出控制理由,并标记状态。机器鉴定结果经过鉴定人员审核,机器无法判定的文件进行人工鉴定,最终输出开放审核结果。

  2021年,省档案馆选择5个全宗档案117293件,先由系统检测拟延期开放档案结果,再由人工进行校验,得出检出率63.73%,相对于人工鉴定的准确率94.94%;2022年,省档案馆选择6个全宗档案87843件,先由人工审核后,再由系统检测拟延期开放档案,检出率80.38%,相对于人工审核的准确率95.52%;2023年,省档案馆选择3个全宗档案32万件用系统检测,延期开放档案检出率为67.64%。在开放审核过程中,通过3批档案数据近52万件的“淬炼”,语义知识库不断积累,智能开放审核系统持续优化,版本趋于成熟,经过验证,拟延期开放档案开放审核检出率达65%,准确率达95%以上。经过项目的实施,24小时单台服务器目标系统可审核档案约1.5万件、20万页。

  智能化档案开放审核初见成效

  2021—2022年,省档案馆利用智能开放审核系统对馆藏205136件档案进行了辅助开放审核,再经过档案馆人工审核和档案形成单位会同审核,开放档案为58824件,开放率为28.68%。

  此项科研成果也得到进一步推广应用,在省档案馆应用后取得良好成效,并逐步在省内外开始推广运用。多家档案馆普遍反映,智能开放审核系统极大地节省了人工,提高了工作效率,有力地推进了档案开放审核进程。

  为拓展智能语义开放审核系统成果应用,解决档案移交进馆前附具开放审核意见难操作问题,省档案馆把触角延伸到省级机关移交进馆单位。2023年,省档案馆进一步向前推进档案开放审核智能化,联合企业申报并立项的省级课题“党政机关档案开放审核方法的研究”项目正在有序推进,主要内容是以档案开放审核的语义知识库为基础,在语义知识库的支撑下,研究党政机关档案开放审核系统的建设、实施和使用,制定具有权威性、操作性和适用性的开放审核工作操作规程,辅助党政机关单位鉴定人员对尚未进馆档案进行审核,目前已在3家省级机关单位试点。

  下一步,省档案馆将深入研究用机器辅助人工进行待开放档案的审核以及档案编研、智能查询、密件识别产品,让语义分析技术和知识库发挥更大的价值,更好地为民服务,助力档案信息化建设,实现档案领域的数字化转型、智能化升级。

  作者单位:江苏省档案馆、江苏联著实业股份有限公司

  责任编辑:王辉

  基于语义层次网络的开放审核系统总体框架图