档案数据集成概述

发布时间:2024-01-29 09:54:03被阅览数:276 次信息来源:《中国档案》

  文/赵德新 刘卉芳 丁海斌 张培铭

  随着电子档案管理改革的深入,电子文件归档和电子档案管理的改革已经取得了一定的成果,部分单位已经基本实现了“单套制”管理的目标。2022年4月7日,国家档案局发布了《电子档案单套管理一般要求》,提出了电子档案单套管理的一般要求,为“单套制”的实施提供了规范。在电子文件归档和电子档案管理方面,目前由于各业务部门信息系统的建设存在阶段性和分布性的特征,部分业务部门的业务系统缺乏归档环节,电子文件在运行结束后分散在各个系统内部,造成了业务系统内部的数据冗余,同时也导致了档案管理部门档案收集工作方面的缺失与“数据孤岛”的形成,掣肘了档案数据的资源建设和开发利用。因此,解决这一问题成为当前电子文档管理工作进一步优化与发展的当务之急。

  档案数据集成相关研究现状

  目前,档案数据集成的相关研究主要集中在两个方面:一是对档案数据集成技术的研究。首先是有关档案数据集成模式的问题。早期档案学者围绕数据仓库模式以及数据仓库和中间件结合的模式对其在档案信息资源管理中应用的可行性进行了探讨。此后,随着数据集成技术的发展,其关注点由数据表层转向了元数据、本体等内容。其次是有关档案数据集成相关技术的研究。数据集成可划分为采集、表示与转换、存储与访问等多个阶段,随着数据集成技术的发展,不同阶段应用的技术也在不断革新。二是对档案数据集成应用研究。目前对档案数据集成应用的理论研究较少,主要包括对应用场景,应用的特点、效用、问题、解决方案等方面的研究。

  总体而言,当前学界对档案数据集成技术和应用的研究已经有了一定基础,但仍处于起步阶段,在大多研究中虽然提到了数据集成问题但对仍缺乏对数据集成技术之间的横向对比,对其实现路径等方面问题的研究仍有欠缺。本文拟从电子文件归档环节的缺失出发,结合当前电子文件归档与电子档案管理改革的实践经验,在梳理当前业务系统集成方法的基础上,探究档案数据集成的现状、实现路径及作用。

  档案数据集成实现路径

  数据集成是解决异构系统集成问题常用的方法之一。档案数据集成是解决多元异构原生电子文件归档问题,打破“数据孤岛”、实现电子档案集中化管理的重要手段,目前档案数据集成所采用的方法主要是基于数据仓库的数据集成。而究其实现问题,应当对档案数据集成数据源的特征、数据结构、数据集成技术的特征等进行综合考量,并对其所采用的关键技术进行具体分析。

  1.档案数据集成的数据源特征

  档案数据来源丰富,且数据源自身具有原生性、异构性。

  首先是数据来源的异构性,目前档案数据的来源主要包括三类:一是数据文件。数据文件包含主数据、业务数据、目录数据等,是各单位业务系统(主要包括OA系统、PDM系统、ERP系统等)所产生的数据。二是流式消息。即物联网设备、监控设备等所产生的数据。三是声像数据。即BIM系统、GIS系统中的图像、视频数据等。此外,档案数据集成的数据源系统也具有异构性,无论是在政府还是企业当中,管理信息系统的建设都具有阶段性的特点。因此,档案数据的来源有各自有独立的运行环境,有着不同的软硬件设备、通信协议等。其次是数据格式的异构性,目前业务系统中的数据按照数据格式可以划分为结构化数据、半结构化数据以及非结构化数据三种主要的类型。本文将其中所涉及的主要内容分类如表1所示。

表1 档案数据分类表

1.jpg  2.档案数据集成方法

  (1)档案数据集成一般方法

  目前,数据集成方法多样,尤其是随着新兴信息技术的出现,基于元数据、语义网技术、网格和云计算的数据集成技术纷纷涌现,为数据集成提供了诸多解决方案,但从总体上来看多数介于模式集成方法、数据复制方法以及综合性方法之间。

  数据复制法是在数据源层和用户层之间加入数据仓库,用于存储待集成的数据,再利用ETL工具对数据进行加工,最后整个系统提供对数据仓库的查询机制并提交至用户层提供利用;模式集成法则是通过统一的全局数据模型来访问异构的数据库、文件系统、Web资源等,它是当前实现集成化信息系统的主流方式,但这一模式的实现依赖于包装器和中间件,包装器将数据源层的数据转换为统一格式,用户则通过中间件进行查询。综合性方法是由数据仓库的概念演化而来的,通过建立全局的操作型数据库来提升中间件的性能。

  (2)档案数据集成方法选择

  档案数据集成方法的选择应当综合考虑数据源的特性、档案的本质属性以及数据集成技术的特性。

  首先,从档案数据源的特性来看,档案数据源具有多源异构性。因此,档案数据集成中的数据源不仅是数据内容本身,还应当包括其关联数据,以保证集成后数据的可追踪、可理解、可溯源,因此对于部分数据应当采用数据复制的方法。

  其次,从档案的本质属性来看,档案具有原始符号记录性,因此档案数据集成方法的选择应当能够维护其原始记录性并具有相对稳定性,使其不易受外界因素的影响。这就要求档案数据集成系统能够保存归档过程中所产生的过程信息,维护数据之间的逻辑关系以及背景信息,从技术上维护档案数据的原始记录性。

  最后,从数据集成技术的特性来看,通过表2可知,无论是数据复制法还是模式集成方法都有一定的缺陷。模式集成法虽然具有较高的实时性,但并不能实际地存放数据,这会导致档案数据集成过程中的某些数据无法被查询,这些数据涉及被删除的历史数据、部分尚未保存的实时数据等,如不能妥善保存,会影响到档案数据集成系统中数据的完整性。数据复制法则是一种物理上的数据集成方法,可以实际地存放数据,同时由于数据已经预先集中存放,利用时效率较高,可以减少对多个异构数据源的操作,提升数据利用的效率,但实时性较差。因此,在档案数据集成时,适合将两种方法混合使用,即采用综合性方法。

表2 数据集成主流模式比较表

1.jpg  (3)档案数据集成实现过程

  档案数据集成集成系统支持在线归档信息包的实时归档,同时也支持电子文件数据档案数据集成系统中既包括系统新产生的数据也包括历史数据。对于各类系统中实时产生的数据,可采用实时数据集成模式进行归档;而针对历史数据,则可采用批处理模式进行归档。

  一是静态档案数据集成。静态数据集成又称批数据集成,是对静态数据集的集成。在指定时间段内,数据被成批地转移到另一个系统,它常应用于传统的关系型数据库系以及Hadoop、Spark等大数据处理平台。对于业务系统中的历史数据,可以利用批数据集成的方式,定期导入档案数据集成系统,其实现过程如图1所示。

1.jpg

图1 静态档案数据集成实现过程

  二是动态档案数据集成。数据集成可以支持OA系统、业务系统中电子文件数据的在线归档,即动态的数据集成其实现过程如图2所示,具体的思路是通过建立全局的操作型数据库,实现对数据源的变化数据捕捉(CDC),以保证数据的同步性,一旦数据源内数据有变,CDC将会通过捕获进程将变更数据捕获到变更表中。利用数据仓库技术将操作型数据库中的数据进行抽取、转换和整合,最终所有数据汇入到数据仓库中。

1.jpg

图2 静态档案数据集成实现过程

  3.档案数据集成关键技术

  档案数据集成需要多种技术的参与,除了围绕数据的抽取、转换、存储等诸多环节所应用的多种数据处理技术(如:多源数据抽取、数据格式转换、结构化/非结构化存储等)之外,还包括了档案业务视角下的数据关联方法、数据标准化方法及数据质量控制方法等。

  (1)元数据管理

  元数据管理是档案数据集成中的一个关键环节,它可以帮助用户理解数据仓库中的数据,同时可以保证数据的质量。元数据的相关技术也是档案数据集成的关键技术,主要包括血缘分析、全链分析、关联度分析等,通过研究基于元数据的血缘分析方法,构建结构化模型,建立统一标准化的数据地图,对数据间流转、依赖关系的影响分析,可以实现档案数据的多维度溯源。

  (2)基于一致性哈希算法的文件分布式存储技术

  在档案数据集成管理过程前,各业务部门的应用系统都留有海量的文件资料,采用基于一致性哈希算法可实现文件分布式存储,其优点是增加或者删除某节点,只会影响到左右两个节点,不会导致整个节点数据重新分布。

  档案数据集成作用

  档案数据集成的根本目标是通过统一的接口,完成档案数据的集中与共享。其作用主要在两方面:一是实现档案数据集成。即通过解决业务系统中多源异构的档案数据的集成问题,化解由于“归档模块”缺乏而导致的电子文件归档难题;二是实现档案数据的交换与共享,最终实现系统内档案数据的全程管理、控制与利用。基于上述的两个目标,结合档案本身以及档案管理的流程,其作用对象主要有:档案数据、业务系统档案数据管理流程以及档案数据利用。

  1.维护业务系统间数据的完整性与一致性

  档案数据集成为用户提供了统一的查询接口对多个数据源进行操作,解决了原生档案数据多源异构的问题,破除了“数据孤岛”,从而屏蔽了档案数据源的分布性与异构性,保证档案源数据的独立性以及系统间数据的完整性与一致性。

  2.重塑业务系统集成理念

  档案数据集成通过单向或双向的动态(静态)数据同步的方式,以数据流串联业务活动的各个环节,来解决电子文件与电子档案管理过程中归档流程的缺失的问题。它突破了传统集成观念中以业务流程为主导的系统继承观念,为业务系统提供了新理念。

  3.推动档案数据的多元化利用

  数据集成是进行数据组织与数据分析挖掘的前提,通过数据集成,可以推动档案数据的结构化,解决档案数据多源异构的问题,推动档案数据对象粒度的细化,为档案数据的进一步组织奠基,进而赋能档案知识库建设、档案可视化展示,推动档案数据的多元化利用。

  结语

  总之,在数字时代,我们要强调的是档案管理与业务系统的关系,要强调基于业务活动的一体化。档案数据集成作为实现业务系统一体化的方法之一,以数据集成以及元数据技术为依托,通过集成的方式、方法,对档案数据以及与档案数据相关的各种要素进行优化整合,加强档案数据之间的整体性的有机联系,使之便于检索利用与数智赋能,从资源的形成端解决了电子文件归档模块缺失与电子档案的收集的问题,实现了业务系统的一体化。档案数据集成从数据流出发,以数据流串联业务流,以数据流串联档案流(档案管理各环节),对异构多源的电子档案数据进行综合集成处理,实现电子文件的“形成—流转—归档”一体化并同步完成电子档案的数据化、智能化的“移交—保管—利用—开发”。总之,数据集成不仅仅是一种技术行为,更重要的是,它是一体化的业务活动的理念和整体化的文档管理的理念。

  参考文献:

  [1]葛东旭.数据挖掘原理与应用[M].北京:机械工业出版社.2020.

  [2]宇然,张悦山.数据仓库技术在档案工作中的应用[J].兰台世界,2003(11).

  [3]钱毅.数据仓库在档案信息管理中的应用[J].北京档案,2006(4).

  [4]冉朝霞.数据仓库技术在档案管理领域的应用[J].档案管理,2009(3).

  [5]巨珺,贾玲,吴艺博,李真,周晓林.基于数据仓库与中间件的档案信息集成研究[J].档案,2012(2).

  [6]王兰成,刘晓亮,黄永勤.档案社会化媒体信息整合中元数据构建与集成技术研究[J].档案学研究,2019(5).

  [7]金更达,何嘉荪.数字档案馆模式探讨——基于元数据的电子文件集成管理与服务研究之二[J].档案学通讯,2005(5).

  [8]陈锋,孙淼洋.数据集市技术在高校安防档案管理中的研究与应用[J].兰台世界,2015(17).

  [9]赵生辉,胡莹,白秋晨.基于数据湖架构的智慧档案馆生态系统构建研究[J].山西档案,2021(6).

  [10]李曼寻.数据湖技术在档案信息资源共建中的应用[J].山西档案,2018(2).

  [11]倪永春.区域涉民档案集成管理与服务平台研究[J].中国档案,2016(5).

  [12]丁海斌,赵锦涛.档案数据集成情景下的应用场景研究—以公路建设项目档案管理系统为例[J].浙江档案,2022(4).

  [13]丁海斌,赵锦涛.数据集成技术在档案管理系统中的应用研究[J].档案管理,2022(6).

  [14]程结晶,刘星.面向精准医疗服务的患者档案数据采集与分析[J].档案学通讯,2021(6).

  [15]鲜勇.地区油气田企业地质档案大数据开发利用体系实践与应用[J].兰台世界,2021(S1).

  [16]曾洪周.省级自然资源档案一体化集成平台建设探讨—以广东省国土资源档案馆为例[J].中国档案,2020(7).

  [17]郑玲玲.基于城乡与区域一体的城建档案数据集成管理应用研究—以东莞市数字城建档案管理平台为例[J].档案学通讯,2010(5).

  [本文系国家档案局科技项目“面向全程溯源的公路建设项目档案数据集成技术及其应用研究”(项目编号:2021-X-04)的阶段性成果]

  作者单位:广西旺港高速公路有限公司、中山大学、广西民族大学、广西机械工业研究院有限责任公司

  责任编辑:王辉