江西:档案大数据分析应用

发布时间:2024-02-19 08:33:24被阅览数:211 次信息来源:《中国档案》

  文/胡志斌  李鹏达  罗贤明

  2013年以来智慧档案馆一直是档案理论研究热点,然而智慧档案馆的形态如何,能够解决什么问题,如何解决问题,这些概念和路径却不十分清晰。其原因主要是新技术接踵而至,实践部门的实际应用不足。江西省档案馆近年来从业务需求出发,通过建设档案大数据分析应用系统,采集、挖掘和分析海量档案数据,在数据的智慧应用上做了一些有益尝试。

1.jpg档案大数据分析应用系统

  数据准备

  数据化是档案数据智慧应用的前提,江西省档案馆通过数据采集、OCR处理、预设词库、标签元数据赋值等多种方式,将各类馆藏档案数据化,为后续的处理提供数据基础。

  1.数据采集

  系统主要通过2种途径采集数据并存入数据仓库。一是通过中间数据库采集第三方应用系统推送的电子档案元数据(含目录数据)、系统用户注册信息、查档者注册信息、档案利用日志、用户检索行为日志、用户登录日志、用户操作日志、档案数字资源统计数据等各类结构化或半结构化数据。二是通过建设互联网电子文件(政务信息)采集系统,采集包括政府公开信息、网页、微博、微信在内的电子信息及资料等自动导入档案大数据分析应用系统。

  2.OCR处理

  目前江西省档案馆的馆藏档案数据主体仍以数字化副本为主,需对其进行尽可能准确的OCR处理。通过对各类OCR工具的测试和比较,江西省档案馆选定了基于深度学习的PaddleOCR识别工具,并根据档案数据化和应用系统对接需要做了二次开发,其文字识别率、准确率和耗时等指标会持续优化、不断提升。经OCR处理完毕的全文数据同样存入数据仓库。

  3.预设词库

  在档案大数据分析应用系统初始化时,为其预配置行政区划、经济行业分类、主题词、同义词近义词、著名人物、重大事件、分词词库等各类已有通用词库,并支持后期的不断更新、补充,为文本挖掘、数据分析提供支撑。

  4.档案标签元数据库

  基于已有档案元数据库、相关知识库等,参照《国民经济行业分类》(GB/T4754—2017)等国家标准,对档案条目包括文种、受文者、人物、行业(领域)、行业(领域)代码、主题等在内的不同标签进行元数据赋值,由此形成标签元数据库,支持向第三方应用系统开放使用。

  数据处理

  档案大数据分析应用系统通过采集、清洗、挖掘、分析处理数据仓库中的档案数据,建立高效、标准、精确的数据集。

  1.档案数字资源查重

  系统通过分析比对档案内容,智能判断重复档案,并对重复件进行关联标记,形成重复数据成果库,供第三方应用系统调用,减少因同一文件重复归档而增加的纸质档案数字化、档案开放审核等业务的工作量。江西省档案馆数字档案集成管理系统通过将档案查重成果前置到档案开放审核任务发起阶段,在中华人民共和国成立后形成时间满25年的154万件文书档案开放审核任务中减少约30万件的工作量。

  2.数据纠错

  基于系统已经形成的相关成果、标准规范等,智能分析档号、题名、责任者、文号、人物、成文时间等元数据,发现可能的错误,如档号不规范、日期错误、错别字、著录错误等,自动列出并用高亮颜色标出错误或疑似错误内容。

  3.垃圾数据清洗

  系统通过分析比对列出并保存各类垃圾数据,包括第三方应用系统的测试数据、无用的日志数据、内容极不完整的目录数据、乱码数据等,形成垃圾数据清洗库,建立垃圾数据清洗接口,支持第三方应用系统调用和处理。

  4.文本数据挖掘

  系统提取档案中的文本数据及相应的元数据,进行文本分类、聚类并将挖掘的文本数据内容存入结构化数据库,保持、维护文本数据与其元数据的关联关系,以及文本数据原有的来源信息、标识符、关联信息等。

  智慧应用

  1.知识图谱

  系统以档案知识库为基础,支持自定义创建人物知识图谱、关键词知识图谱和专题知识图谱。形成的知识图谱能进行可视化展示,鼠标在节点上悬停显示题名、关联档号等相关元数据信息,用户可通过导出Excel表方式导出知识图谱结果,为辅助档案编研、档案智慧检索等提供了全新智能化工具。

  2.档案利用热点分析

  一是热点档案分析。系统采集并记录、保存第三方应用系统近期利用历史中利用频次较高的档案门类、主题等。通过数据分析,当某类或某主题档案的利用人次明显高于平均利用水平时,系统自动标记为当前的热点档案,生成热点档案分析成果库。二是热点主题预报。系统对第三方应用系统用户检索关键词进行分析,某些同义、近义检索关键词使用频次明显高出使用频次低的关键词时,同时与时政、民生政策、研究等相关联时,可视其为热点主题预报。预报当前和今后一个时期可能出现的社会各界对某类或某主题档案的集中利用需求,为档案利用、征集、接收和馆藏结构研究等提供参考。

  3.辅助著录

  通过文本挖掘、摘要、数据分析等技术,记录、保存人物的姓名、曾用名、生卒年月、性别、国籍、籍贯、历任职务及任职时间、职业等,各类机构业务活动的名称、活动描述、地点、起止时间、背景、人物、成果等描述信息。系统根据上述成果信息实现为档案数据自动赋值、自动标注、自动提示、自动纠错等功能,辅助用户著录文书、声像等类档案,提高著录效率和规范性、准确性。

  4.辅助档案开放审核

  通过全宗属性、档案门类、公开属性、互联网属性、鉴定成果、内容敏感性、密级、档案年龄鉴定等维度建立鉴定模型,并自定义设置鉴定规则。系统根据用户设定的模型和规则,通过文本挖掘和数据分析,为鉴定对象的各个维度赋值,根据鉴定规则最终生成控制标识、参考鉴定意见、辅助鉴定依据、分析验证等结果,从而实现人工智能辅助开放审核。江西省档案馆数字档案集成管理系统通过对接人工智能辅助开放审核接口,实现了25%的一审替代率、20%的二审替代率,非直接替代的人工智能审核总准确率为70.68%,总精确率为67.6%,大大提高了档案开放审核工作效率。

  5.辅助排密

  系统遍历数字原文中含秘密、机密、绝密等内容,以及重要会议记录、有关涉密人物和场地等的内容,如档案元数据中密级项未著录密级,系统将自动为密级项赋值,列出并保存涉及档案的档号、题名、责任者、文号,用高亮颜色标出密级项的值,形成相应的成果库数据。

  6.数据可视化

  一是档案大数据分析应用系统通过档案数据仓库中的馆藏档案条目数据、各应用系统日志数据进行统计聚类分析,形成基于LBS(基于位置的服务)的全省馆藏档案数据大屏、全省档案共享利用服务应用大屏,对全省馆藏数据分布情况、数据增长情况、全省档案共享利用服务次数、效率等进行可视化展示。二是形成了抗疫时间轴、江西援鄂医疗队情况、著名人物、重大活动、历史上的今天等成果库可视化成果。

  7.多级著录

  系统自动抓取全省各级档案馆的馆藏档案数据进行聚类分析,智能生成、自动填充档案馆级、全宗级、类别级三级著录信息,为人工多级著录提供档案资源情况、档案形成时间、档案所属门类情况、档案卷件数基础数据。

  8.辅助编研

  系统按照给定的编研主题,通过抓取馆藏档案目录数据、全文数据进行分析整理,提取与指定主题相关的档案条目,自动进行归类和呈现,为档案编研工作提供线索指引和档案目录聚合。

  9.辅助决策

  系统收集各业务节点关键信息集中可视化展示,档案馆高级管理者可实时、直观地掌握全馆的总体情况、各部门的业务状况和各业务环节的衔接情况,统筹安排、协调推进各项基础业务工作。借助档案大数据分析应用系统,档案馆高级管理者可轻松做到家底一清二楚、变化一目了然,这对于创新档案治理方式、提升档案治理能力具有重要价值。

  工作展望

  档案数据作为新生产要素,只有依靠信息技术才能充分挖掘其内在价值,在当前物联网、云计算、大数据、人工智能、深度学习等技术普遍应用的新形势下,档案智慧化是必然选择。档案大数据分析应用系统着眼于智慧数据应用,从档案数据准备、数据处理出发,与江西省档案馆数字档案集成管理系统、江西档案云中心等第三方应用系统实现对接,为全省110余家三级综合档案馆多级著录、辅助开放审核、辅助著录、数据可视化等智慧应用提供技术支撑。截至目前,系统中已经形成词库19个、词条近百万,主题库20余项,人物知识图谱454个,专题知识图谱17个,为113万余件档案提供了辅助开放审核意见,对51余万件重复件档案进行了筛查和标记。智慧数据的应用有力地推进了档案事业高质量发展。

  新时代新征程,综合档案馆如何从数字化向智慧化迈进,仍有许多问题尚待研究,许多藩篱亟待突破。一是人工智能环境下,特别是以ChatGPT为代表的大语言模型爆炸性发展的情况下,如何保证档案数据绝对安全,同时又能将新技术导入档案智慧化工作领域,并与档案业务结合,充分发掘档案数据的价值。二是当前档案智慧化应用对传统档案业务路径依赖过重,档案智慧化场景仍主要集中在智能辅助编研、智能辅助开放审核、档案知识图谱、辅助排密、热点档案利用预测等方面,如何破除思维定式,探索全新的应用场景,提升智慧化应用水平,这些问题有赖于全体档案工作者共同努力,不断探索,以业务需求为出发点和突破口,一步一个脚印迈上通向智慧档案馆的阶梯。

  作者单位:江西省档案馆

  责任编辑:王辉