云环境下电子档案数据图形化分析系统开发研究

发布时间:2024-07-29 19:51:59被阅览数:62 次信息来源:《中国档案》

  文/丁海斌   何玮   颜晗

  随着信息化时代的不断深入,数据已成为各个行业、企业乃至个体的重要资产。“云管理+大数据+智能化”成为电子档案管理发展的主要方向,由此衍生出越来越多、越来越先进的档案数据管理与利用的新方法,云环境下的电子档案数据图形化分析即是其中之一。

  在档案利用中利用图形化分析工具方面,知识图谱是一种较为简单的工具,得到了档案学界较多的关注,有了一些相关文章和项目立项。但对电子档案数据图形化分析工具的更为深入、更为全面的研究仍处于十分匮乏的状态。因此,本文将探讨如何在档案数据图形化分析中充分发挥云技术、云资源优势,探索在云环境下档案数据的图形化分析系统的开发方法及应用前景,并尝试建立一个系统化、标准化的开发流程。期望通过这项研究,能够为电子档案的图形化分析系统发展提供思路和方法,使云上海量档案数据体现前所未有的重要价值。

  云环境下电子档案数据图形化分析系统设计目标

  电子档案数据图形化分析系统作为电子档案管理系统中的一个智能化档案利用子系统,为了实现高效、智能的总目标,应首先实现以下主要分解目标。

  1.进行档案数据的集成

  为确保档案数据分析工作的开展,集成来自不同业务系统的档案数据成为一个重要的设计目标。这不仅涉及数据的物理集成,将数据从多个数据源汇集到一个统一的存储环境中,还包括逻辑集成,使这些数据能够按照统一的标准和格式进行存储、检索和分析。数据集成的主要目标是集成多种信息源数据,其具体做法主要是按照逻辑和物理规范进行多源数据集成,形成一个包含不同特征数据集的新的更高层次的数据集。创建新的电子档案数据集的目的不仅在于实施电子档案的整体化集中管理,更重要的是实现集成化的档案数据的智能化应用。而档案数据集成的研究主要集中在两个方面:一是对档案数据集成技术的研究。二是对档案数据集成应用研究。云环境下电子档案数据图形化分析子系统的实现,不仅要完成档案数据的集成,还要实现数据分析技术的集成。这包括在系统内部及云端完成档案数据的导入,实现不同机构和部门间的数据联盟。同时,系统还需要支持技术上的扩展和平台建设,为后续开展电子档案数据图形化分析提供必要的技术支持。

  2.实现档案分析系统操作的简易化、可视化

  目前,档案部门开始在业务工作中关注档案资源的数据化、档案内容的知识化、档案信息的智慧化以及基于档案数据的辅助决策,推动智慧档案馆与智慧档案建设,从而满足个性化、差异化、精深化的档案数据利用需求。要满足精深化的利用需求就必然要借助档案数据分析系统,且分析系统的易用程度和可视化能力在一定程度上决定着数据分析工作的可行性和有效性,而易用性的体现之一就是图形化的分析方式。在云环境下电子档案数据图形化分析子系统中,以导入的档案数据为基础,支持对导入的档案数据集建模并形成知识图谱,形成的知识图谱能进行可视化展示,鼠标在节点上悬停显示题名、关联档号等相关元数据信息,用户可通过导出Excel表方式导出知识图谱结果,全过程操作通过“零代码”,“拖、拉、拽、点击”的方式来完成,使系统既具备了简易化也具备了可视化。这样的档案数据分析系统不仅可以让普通业务人员轻松完成对档案数据的分析,又能够减少对数据分析师的依赖,解决缺少既懂档案专业知识又懂数据分析技术的人才难题。

  3.实现电子档案数据高性能查询和分析

  电子档案数据高性能查询和分析是需要实现的目标之一,它强调要在巨大的档案数据量中能够迅速、准确地定位和解读信息。在电子档案云管理的背景下,存储的数据量经常达到TB级别或更高,从这些庞大的数据中快速且高效地进行档案数据的筛选、去重、分类和分析变得尤为重要。在实际场景应用中,高性能查询和分析功能为用户和机构节省大量的时间和精力,特别是在面对大量电子档案数据时,它需要为用户提供一个简单、直观、高效的数据管理和解读工具,从而保证档案数据的最大化利用和价值释放。

  系统设计与实现对策

  1.系统架构

  操作系统与云环境:系统部署在基于Linux的CentOS操作系统上,在云环境中,电子档案数据图形化分析系统可通过云平台实现高可用与高扩展,通过云端的负载均衡实现系统稳定运行。

  数据库管理:采用GBase数据库作为结构化数据存储,其中使用完全并行的MPP+Shared Nothing的分布式架构,让数据库系统协同运转;同时支持多活Master的联邦架构来提升故障转移能力,并让其中所有节点都具有对等的计算能力,在模式上选择行列混存可以提供灵活数据访问模式,这样的数据库技术架构就可以满足对电子档案数据的高性能查询和分析,满足图形化分析的需求。

  后端开发:使用Java语言开发,采用Spring Boot框架是当前最主流的选择且适合微服务架构,因其可以构建小规模、松耦合的服务单元并且可以与Spring Cloud集成,所以也是系统上云的不二选择。另外Spring Boot可以支持广泛的库和插件,对系统后期扩展与集成起到快速开发和简化应用的作用。后端架构所采用的MVC模式能确保系统结构在开发过程中的效率与适用。

  前端技术:前端界面使用jQuery、EasyUI和ECharts开发。jQuery用来实现跨浏览器的兼容并可以提供丰富插件,EasyUI是建立在jQuery基础上的,用来构建图形化分析系统交互界面,帮助快速构建响应式网页应用方便后续业务拓展。ECharts用于实现电子档案数据的图形化分析,高性能与高度个性化符合系统完全执行图形分析操作的要求。

  应用架构:系统基于B/S架构设计可使用户通过浏览器访问系统,省去安装所占用的资源,是云上必备条件之一。前后端之间通过网络进行通信,并使用JSON格式进行数据交互,必要时也可使用XML,这样的应用架构能够满足业务机构数据量大、档案数据格式较为统一的需求。

  第三方服务集成:系统集成第三方服务时,采用JSON、XML作为主要的数据交换格式,这样做既方便了与外部系统的集成,也保证了数据交换的高效性和标准化。

  安全性:安全性作为必须考虑的问题,可以从物理安全、网络安全、应用安全及数据安全来考虑。物理安全是由云供应商全权负责的,必须具备严格的数据中心安全标准;网络安全可以选择虚拟私有云(VPC)和子网确保通信安全;应用安全涵盖系统开发多个阶段,是团队各个环节需要把控的;数据安全在云环境下是一个共享责任模型,双方都有责任确保数据的安全,在云供应商和用户之间达成数据安全共识的协议必不可少。

  2.功能实现

  围绕导入的数据集进行图形化分析操作,分析功能分为以下4类:

  数据导入:数据导入分为3个模块,即资源表、联盟数据以及直接导入。资源表为系统中预先设定好的表,这些表只需要数据导入即可形成用于分析的表;其次为联盟数据,它是数据共享与跨平台、跨系统进行数据分析的关键,在进行接入和核准后可进行不同机构数据的导入,实现共享。如果基于安全性考虑,则可以使用数据导入功能,即系统自身存在的数据导入,可以批量导入,也可以单个导入。系统可使用导入的数据表与原数据库中的资源表进行碰撞分析,也可使用两个导入的数据表进行碰撞分析,极为灵活。

  数据初探:系统可对所有种类的数据进行快速结构化查询。综合查询作为所有资源表的查询入口,具有资源覆盖全面、字段选择灵活、操作简洁、性能强大等优点,适合服务于每日需要的大量查询工作。

  用户可以在条件输入区输入查询的条件,支持精确、模糊、排除、多条件匹配。条件输入区会默认几个常用条件供用户选用,如果需要查询的字段不在条件区,用户可以手动勾选字段添加到条件区进行查询,对于查询的结果支持自定义分页展示。

  数据分析模型构建:数据分析模型构建作为图形化分析系统最核心的功能,具备条件过滤、统计、碰撞及自碰撞功能。其中过滤功能是系统支持用户根据业务需要对数据源进行多维条件的过滤,任意字段都可以做条件进行对档案数据的筛查。统计功能包括分组统计、交叉表统计、图表统计、BI图形化分析及关系图形化分析。碰撞与自碰撞是对数据集内在关联进行数据挖掘的功能。

  如图1所示,包括数据集之前的交、并、(A-B)并A、纵向关联、横向关联等操作方式,通过字段的选择完成数据集间个性化的分析操作。

1.jpg

图1 碰撞与自碰撞功能界面图

  分析结构及模型的输出:系统能够对分析后的数据结果进行导出,并且分析过程所建立的数据分析模型也可进行发布分享与导出。

  系统评估与改进

  为验证云环境下电子档案数据图形化分析系统的可行性与必要性,通过案例实施与评估,并总结系统效果,指出未来改进方向。

  1.实施案例

  图2是在云环境下对两个机构的电子档案数据进行分析与深度挖掘的分析模型展示。分析模型中将两方机构数据量分别为62.8万和44.6万条的数据集进行导入并完成第一步分组统计所需时间2.3秒和2.1秒。第二步对统计后的数据进行关联性分析产生相关联的数据2.59万条。第三步获取关联性数据的完整数据集内容。第四步通过碰撞功能完成符合运算条件的数据分析操作总结80条。

2.jpg

图2 分析模型展示图

  2.效果分析

  通过进行相关案例的数据的完整分析流程实验,可以确证云环境下电子档案数据图形化分析系统为档案数据分析工作带来了新的思路与方法。

  (1)数据分析云协同

  云环境下的电子档案数据跨机构跨部门传输,一方面可以满足数据分析的需要,另一方面也是为业务机构实现档案数据共享提供便利。大数据与人工智能都以云计算为依托,云协同为大数据分析提供了便利和高效,也为电子档案数据图形化分析系统提供高效运行的基础。通过相关的实施案例,验证了利用云平台实现档案数据的集成,也验证了系统能够满足对大量数据进行快速分析的性能需求,这为后期实现更大数据量、更复杂数据结构的图形化分析提供了研究方法与研究方向。

  (2)自主建模易操作

  选择关键组件和库实现的电子档案数据图形化分析子系统为系统使用人员提供了有效的档案数据分析工具,系统中各部分独立性字段的耦合为档案数据分析的自由化与个性化建模创造条件。相比于以往知识图谱的分析方式,云环境下电子档案数据图形化分析系统更具自由度与灵活性,每一个“节点”都是一个可以操作的模块,且节点间的运算都是独立的,但模型整体的运算又是归并的,即任何一个环节的变动都会影响下一环节,甚至是全局的变动。

  (3)高效可视能扩展

  数据集分析后的最终结果表示,对于符合数据分析规则的数据集能够实现精准定位,整个分析过程用时可以精确到毫秒级,确保了分析系统的高效性。另外,通过图形化中“节点”元素构建的表示方式使整个分析过程以可视化的形式呈现给用户,分析模型中任意环节或数据的变动都会导致全局的变动,所以图形化的展示既便于理解数据,也能确保档案数据的凭证价值在分析过程中不会因为分析操作所导致的数据集形式上的变更而有所减弱。另外,分析系统可融合对接其他平台,通过XML、JSON等方式,通过申请接口调用,实现与其他平台的数据共享以及子项目的建设,其他平台的系统可与本系统对接,本系统也可对接现有的各类平台,实现扩展。

  3.未来改进方向

  未来,云环境下电子档案图形化分析系统的发展前景广阔,有着丰富的改进和扩展潜力。伴随着云计算技术、大数据处理技术以及人工智能算法的不断进步,将在以下几个方面实现显著的发展:

  (1)增强数据处理能力

  通过设计出更先进的数据处理算法和机器学习模型,系统将能够处理更大规模的数据集,同时提高数据处理的速度和准确性。这将使得系统更加适用于日益增长的电子档案数据分析需求,特别是在处理非结构化和半结构化数据方面展现出更大的潜力。

  (2)更深入的数据分析和挖掘

  借助人工智能和机器学习技术的力量,系统将能够自动发现数据之间的复杂联系和模式,提供更深入的数据分析和价值挖掘。这不仅能够帮助用户更好地理解数据,还能够在某些场景下提供预测性分析和洞察。

  (3)更高级的数据可视化功能

  未来的发展将以数智化、平台化为主,系统将集成更多高级的可视化工具和模板,使得数据展示更加多样化和直观,特别是在增强现实(AR)和虚拟现实(VR)技术的支持下,提供沉浸式的数据分析体验将成为可能,例如元宇宙的出现。

  (4)更广泛的应用场景

  大数据分析技术已经囊括了各行各业,在金融、医疗、科技等领域已经大放异彩。档案数据分析的应用场景也可以是这些领域,相比大数据不同的是,档案数据图形化分析将使分析结果更具效用性,因此,对档案数据分析的推广宜早不宜迟。

  (5)更广泛的开放、共享与更高的标准化水平

  云平台的建设将为档案数据开放和共享提供了坚实的基础条件,而更广泛的开放、共享也必然要求更高的标准化水平。开放与共享是顺应时代发展的需要,无论是在政策上还是在制度上,形式上还是结构上,这样的开放与共享都为统一管理和标准化做铺垫,为标准找出路。同时,随着各类标准法规的出台,也是在为档案数据管理的统一和共享保驾护航。

  云计算的应用在档案界正处于刚刚起步阶段,未来将有极其广阔的应用前景。而云环境的特性为更多更高级更智能的电子档案数据图形化分析工具提供了基础条件。因此,可以预见电子档案数据图形化分析工具将在云背景下在电子档案管理与利用中得到广泛应用。希望本文可以为理解、改善、开发云环境下的电子档案数据图形化分析系统提供较完整的解决方案,并对未来的实践应用和理论研究具有一定的指导作用。

  参考文献:

  [1]丁海斌,赵锦涛.档案数据集成情景下的应用场景研究—以公路建设项目档案管理系统为例[J].浙江档案,2022(4).

  [2]赵德新,刘卉芳,丁海斌,等.档案数据集成概述[J].中国档案,2023(6).

  [3]胡志斌,李鹏达,罗贤明.江西:档案大数据分析应用[J].中国档案,2023(8).

  [本文系国家社科基金西部项目“电子档案云管理体系及实现路径”(项目编号:23XTQ003)的阶段性研究成果]

  作者单位:广西民族大学管理学院

  责任编辑:王辉