发布时间:2024-10-08 20:14:01被阅览数:141 次信息来源:《中国档案》
文/房开乾
进入数字经济时代,企业各类业务纷纷开展数字化转型,各类型业务系统形成和积累了大量电子文件有待归档。由于企业在业务系统建设时往往没有考虑电子文件的归档需求,这将导致以后实现电子文件归档会面临成本高、改造困难、实现难度大等问题。随着企业数字档案馆建设的深入,亟须设计通用归档接口方案,统一归档接口技术标准,以满足当前和未来一个时期的增量电子化归档需求。
传统归档接口存在的问题
自2009年以来,国家先后出台了一系列电子文件归档与电子档案管理的规范标准,内容涵盖电子文件元数据方案、电子文件封装、电子档案“四性”检测、业务系统归档接口功能要求等内容。企业在业务系统归档接口开发过程中,常常参照以上规范标准,“一事一议”,针对管理类系统(公文、财务、ERP等)、工程类系统(PDM、CAPP等)逐个开发归档接口,此种接口开发方式主要存在以下问题。
1.归档信息不完整
完整的归档信息应包括电子文件及其元数据,其中元数据应包括文件实体元数据、文件实体关系元数据、机构人员实体元数据、业务实体元数据等内容。传统归档接口一般只是捕获了文件实体块的内容描述元数据,而忽视了对验证电子文件真实性方面很重要的背景元数据、机构人员实体元数据、业务实体元数据等内容。
2.归档接口功能不完善
传统归档接口受限于成本、技术等原因,一般只是简单完成了数据“搬迁”,归档接口功能存在缺陷,如没有“四性”检测功能,无法检测归档电子文件及其元数据的完整性;归档接口没有自动查重功能,易出现重复归档;归档接口没有格式转换功能,部分归档的电子文件格式没有转换为通用格式;归档数据为明文传输、存储,没有加密,存在安全漏洞。
3.归档接口无法灵活扩展
企业开发的归档接口一般都是固化而难以灵活拓展的,如只支持固定的元数据、固定的归档范围、固定的版式文件等,未进行通用化设计,在每次增加业务系统归档对象时都需要由厂商研发人员进行定制化开发,这无疑增加了客户的投入。
4.归档接口重复建设,运维困难
厂商在进行二次定制开发时,其实不同系统接口协议之间差异并不大,接口检验核心功能逻辑基本一致,这导致一定程度上的接口重复设计、接收检验功能重复建设,带来不必要的系统接口复杂异构、运维困难问题。
数字档案馆系统电子文件通用归档接口方案设计
对于企业而言,由于各类业务系统数量众多、部署各异、功能复杂,设计规范、标准的归档接口方案,统一归档接口技术标准,无疑成为首选。在此方面,华润集团、韶钢、航天三院均建立独立的通用归档接口平台,独立于业务系统和数字档案馆系统,作为电子文件进入数字档案馆系统的前置处理平台。
为降低技术难度与开发成本,避免“四性”检测不合格的电子文件进入数字档案馆,本文提出在数字档案馆系统中建设电子文件预归档处理模块,专门用于电子文件在线归档后的预处理,形成电子文件接收库。
目前业界主要应用的归档接口集成开发技术有Web Service技术、中间库技术和ESB技术。一般认为Web Service归档接口方式具有技术适配性强、开发难度低、部署容易的特征,非常适合异构系统之间的集成,可满足不同业务系统归档集成场景。故本文提出的通用归档接口设计皆立足Web Service归档接口方式。企业N对1通用归档接口设计思路如图1所示。
图1 企业数字档案馆通用电子文件归档接口设计思
1.通用归档接口主要功能
通用归档接口对外连接业务系统,对内连接数字档案馆管理库、保管库、利用库。接口的通用性体现在各类业务系统调用同一个归档接口,将动态内容作为外部配置项,外部配置项可通过可视化的配置方式来实现,而不是通过软件开发人员将配置项写在归档接口的程序代码里。这个外部配置项主要包括元数据方案配置和“四性”检测方案配置。归档接口可将元数据方案配置生成归档接口需要用到的XML Schema文档(XSD文档)。各业务系统根据获取到的XSD文档(XSD文件格式)对归档数据进行打包。该文档构成了对不同业务系统归档时进行“四性”检测的重要依据。
元数据管理。将企业各门类电子档案元数据方案分别配置到通用归档接口,定义电子文件元数据结构,配置业务系统与通用归档接口内各门类档案的字段映射关系,从而实现电子文件元数据方案的集中、统一、规范管理。
“四性”检测。在归档环节开展“四性”检测,检测通过的电子文件方可被正式归档到数字档案馆管理库,“四性”检测不通过的电子文件将被拒绝传输到数字档案馆管理库。
通用归档接口所在的电子文件在线归档预处理模块还有格式转换功能。由于部分业务系统不具备格式转换功能,可以在该模块配置格式转换策略,将业务系统归档电子文件自动转换为通用格式(如PDF格式、OFD格式、JPG格式等),并与原始格式电子文件同时保存。
2.接口调用和数据传输安全性
业务系统调用归档接口需要先从数字档案馆系统获得分配的安全验证码,获取XSD文件时需要对该码进行核验。传输的归档信息包要采用对称加密,密钥依据验证码按一定规则产生,确保不同业务系统的安全验证码和加密密钥唯一性。
3.归档信息包封装策略
根据《基于XML的电子文件封装规范》(DA/T48—2009)中的定义,电子文件封装包内含文件、文件元数据、电子签名、封装描述信息等,封装包是一个格式规范的XML文件,其扩展名为EEP。然而,这种能够自包含、自描述、自证明的EEP封装包在实践中却逐渐销声匿迹,主要原因在于这种“洋葱结构”层层包裹,给追溯和利用带来很大困难;文件内容经Base64编码后可能膨胀较大,封装和编解码过程非常耗费资源;层层封装层层签名的方式看似完美,实则使封装包受制于CA认证机构,后期维护非常不便。因此,电子文件封装结构需要寻找一种新方法。
一种更加灵活方便的封装格式是ZIP封装。当然,采用ZIP封装并不是说电子文件的元数据和内容数据就不重要了,实际上电子文件的元数据和内容数据一个也不能少,而且还得按照一定的结构组织起来。组织的过程是省不掉的,封装的操作则很简单。由于ZIP压缩格式是开源的,采用ZIP封装不用担心受制于特定技术或机构的问题。本文设计的通用归档接口使用的归档信息包封装结构主要采用和参考了《党政机关电子公文归档规范》(GB/T39362—2020)描述的信息包结构,笔者认为,该规范相较《基于XML的电子文件封装规范》(DA/T48—22009)更为合理和实用。
为避免出现在归档及检测环节电子档案信息包解析和校验困难,宜将归档信息包的封装结构和封装要求以标准规范的形式公开发布,可通过本文介绍的通用归档接口根据元数据方案动态生成XMLSchema来实现,并将该文档与归档信息包一同保存。在归档接口接收到归档信息包后,采用XSD文件对XML文件结构进行校验,校验通过方可归档。
电子文件归档信息包主要包括电子文件元数据XML、电子文件元数据XSD、电子文档FILE等多个文档,其扩展名为ZIP。归档信息包结构如图2所示。
图2 电子文件归档信息包结构示意
电子文件元数据XSD是一个格式规范的XML文件(XML Schema Definition),其扩展名为XSD,元数据结构参考DA/T48—2009附录B进行描述,主要用于校验元数据XML文件的完整性、规范性。业务系统归档前,通过归档接口获取最新的元数据XSD文件,在归档信息包传输到数字档案馆系统后,将XSD文件与XML文件结构进行校验,校验通过方可归档。
4.归档信息包完整性防护
一般通过MD5算法生成散列值,记录归档信息包的数字摘要,归档信息包连同MD5值一同归档。
加强系统集成标准化规范化建设
电子文件归档和电子档案管理是一项前后衔接紧密的系统性工作,标准化规范化的系统集成标准是成功建设企业数字档案馆的重要保障,也是目前企业系统集成的薄弱环节。本文设计的通用归档接口需要以标准规范的形式固化和推广施行,技术与管理应相辅相成。国内目前已有一些案例。例如,由上海市档案局起草制定的地方标准《政务服务“一网通办”电子文件归档管理技术规范》由市场监管部门正式发布,并于2019年7月1日起实施。《规范》对政务服务“一网通办”业务产生的电子文件的归档管理总则以及归档流程、归档数据包组织、归档文件格式、系统接口作出了规定。无锡地铁集团制定了各类电子文件归档标准化接口,在接口中采用“四性”检测技术手段保障了电子文件向电子档案的可靠转换。福建福清核电有限公司形成了《N1-ECM系统标准接口集成详细设计方案》,对包括App移动端、DM文档管理模块、工程文件业务流程在内的50多个接口进行详细说明,促进系统开发标准化规范化。
结语
实施规范、统一的通用归档接口方案,对企业档案信息化建设具有积极的推动作用和显着的经济效益。一是能够有效降低业务系统归档接口开发成本,减少重复工作,切实为企业降本增效;二是能够促进业务系统电子文件归档,提高归档意愿,满足企业数字档案馆建设要求;三是能够结合企业实际积极探索上位电子文件归档标准规范在企业的具体应用,发挥示范作用,形成可推广复制的经验做法。
作者单位:中国工程物理研究院档案馆
责任编辑:王辉