人工智能时代下数字档案资源存储与长期保存的新模式与新路径探索

发布时间:2024-09-24 19:29:09被阅览数:143 次信息来源:《山西档案》

  作   者:王鸿翔

  摘   要:随着人工智能、大数据、云计算等新一代信息技术的快速发展,数字档案资源呈爆发式增长。传统存储和长期保存模式难以适应数字化、智能化的时代要求,亟需优化和创新。在分析影响数字档案资源存储与长期保存的多重因素的基础上,剖析现有存储与长期保存模式的不足与局限,并探索构建数字档案资源存储与长期保存的新模式与新路径。

  关键词:档案资源存储;档案资源长期保存;数字档案资源;人工智能

  随着大数据、云计算以及人工智能技术的迅猛发展,数智化转型成为全球潮流与共同趋势,数字档案资源呈现爆发式增长,档案管理与实践的数字化进程也在不断推进。据统计,截至2022年末,我国各级综合档案馆馆藏电子档案已达2 372.9 TB,馆藏数字化成果更是高达28 069.0 TB[1]。大规模数据成为档案管理工作的新对象,实现海量数字档案资源的科学存储与长期保存是当前档案工作亟需解决的问题。

  人工智能技术为数字档案资源的科学存储与长期保存带来新的发展机遇。系统审视数字档案资源存储与长期保存面临的新形势、新需求,探索数字档案资源存储与长期保存的新模式、新路径,是落实数字档案战略、应对人工智能时代挑战的必然要求,是档案资源安全完整、可信可用的关键保障,是档案历史文化遗产永续传承的重要基础,是推动档案事业高质量发展的必由之路。

  1  数字档案资源存储与长期保存的影响因素

  1.1 数智技术带来新机遇与挑战

  以云计算、大数据、物联网、区块链为代表的新一代信息技术飞速发展,数字存储介质、先进计算设备的性能不断跃升,存储架构也从单一走向融合。新一代信息技术在为海量数字档案数据提供高效率、低成本的存储解决方案的同时,技术更新与迭代也使得原有存储格式、管理系统面临迭代和淘汰风险,加剧了数字档案资源存储与长期保存的不确定性。

  1.2 存储容量与保存效率的需求

  随着数字化进程的推进,数字档案资源的体量呈几何级增长,预计到2025年,中国数据量将激增至48.6 ZB,成为全球最大的数据体。实现海量档案数据的高密度、低成本、快检索存储成为档案工作新的重难点[2]。大数据环境下,档案数据价值的释放往往依赖多源数据的关联分析,因此还需要实现异构数据的一体化存储。

  1.3 数据类型对存储模式的影响

  随着影像、3D模型等新型载体的出现与普及,非结构化数据在数字档案中的占比持续攀升。非结构化数据在数据获取、存储组织、描述检索等方面与结构化数据有着显着差异,传统的关系型数据库难以有效支撑非结构化数据的存储和处理,NoSQL、分布式存储、知识图谱等新兴技术和模式的及时涌现与深度应用是混合数据环境下实现结构化与非结构化档案数据统一管理的高效保障。

  1.4 技术迭代风险与兼容性问题

  数字档案资源的长期保存不仅要考虑存储介质的影响,还要防范技术迭代带来的数字遗忘风险。随着存储格式不断演进,软硬件环境日新月异,系统割裂、数据移植及多套备份导致不同版本的档案数据间存在差异,保障原始档案真实内容记录在新系统、新环境下得以完整读取与顺利呈现成为档案工作的新重点。因此,要在格式、载体、系统间建立可靠的转换机制,制定长期档案数据标准规范,加强档案元数据管理,支撑档案全生命周期的可用性维护。

  2  现有数字档案资源存储与长期保存模式的不足

  2.1 存储容量、速度、成本等方面的局限性

  海量档案数据需要配套相当规模的存储容量。当前主流的磁盘阵列、磁带库等存储设备容量扩展功能受限,大规模数据存储还面临上传、检索、读取速度的瓶颈,传统垂直扩容方式的成本与后期维护费用高昂。云存储、软件定义存储等新兴技术可为解决存储容量问题提供新思路与新手段,但在安全性、可控性方面仍存隐忧。档案事业需要致力于构建经济高效、安全便捷、易于扩展的档案存储新架构。

  2.2 各类技术标准、规范有待完善

  技术标准是数字档案资源科学存储与长期保存的重要保障。档案领域出台了《电子文件归档与电子档案管理规范》《电子档案存储用可录类蓝光光盘(BD–R)技术要求和应用规范》等一系列标准,但当前档案管理机构响应和落实的程度不足,元数据、数据质量、审计监督等方面的标准尚不完备,不同系统间缺乏统一的数据交换格式,异构数据资源整合面临诸多障碍[3]。

  2.3 安全性、可靠性、真实性维护存在不足

  数字档案面临着被病毒入侵、非法访问、盗取或篡改的风险,以及存在存储介质不稳定、元数据记录不准确、灾备措施不完善、缺乏审计与监控等问题,并且数字档案资源一旦失真、泄露或破坏,其损失将难以弥补。数字签名、加密存储等技术虽然在一定程度上保障了数据的完整性,但是对系统级、管理级的安全防护仍显不足。

  2.4 未与人工智能、大数据等技术深度融合

  档案数据蕴含着巨大的社会价值和经济价值,对其充分挖掘与全面开发需要大数据、人工智能技术的深度赋能。大多数档案机构的数据整理、编目、检索等业务仍以人工或半自动化方式进行,难以应对数据规模激增的挑战,难以满足公众日益增长的档案需求。因此,有待进一步探索在存储环节嵌入人工智能技术,实现档案资源的自动分类、语义关联和价值标引,从而做到按需调用。

  3  数字档案资源存储与长期保存的新模式

  3.1 智能分类、组织、检索与关联

  档案数据的分类、组织是高效存储、快速检索的前提。人工智能技术破除了传统的人工编目、分类方法效率低、主观性强等障碍。基于机器学习算法,可以从海量非结构化档案数据中自动提取关键特征,进行智能化主题识别、分面聚类,大幅减轻人工标引工作量。借助自然语言处理、语义分析等技术,档案数据间的关联、推荐、导航更加精准高效。如英国国家档案馆研发的自动化分类工具,可将档案文本按照四级主题进行归类,为用户提供多维度、个性化的知识发现服务。

  3.2 云—端融合的分布式异构存储模式

  云存储为应对数据量激增提供新的存储、计算和服务模式。将云计算与档案业务深度融合,部署“云—端”一体化架构,可有效集约存储资源、简化管理流程、提升服务能力。在该模式下,原始档案数据集中存储于云端,不同节点可按需调用与共享,实现档案数据的异地异构管理[4]。此外,云平台还可提供弹性扩容、智能分层、自动迁移等功能,根据档案数据的热度、访问频率,动态优化存储介质和存储位置,在降低使用成本的同时最大限度保障用户的检索体验。

  3.3 去中心化长期保存模式

  随着互联网及物联网的发展,产生于不同场景、分散在不同节点的档案电子文件日益增多,集中式存储模式难以适应当前发展态势。区块链技术作为一种去中心化、不可篡改的分布式账本技术,为档案数据的溯源、验真、共享提供理想的技术支撑。伴随着可信时间戳、多方安全计算等机制的引入,区块链技术可以进一步强化档案数据全生命周期的安全防护,实现档案保管、利用的去中心化协同。

  3.4 软硬件混合存储模式

  数字档案资源具有多源异构、动静结合的特征,单一存储架构和存储介质难以满足多样化需求。随着技术的不断演进,磁—光—电混合存储逐渐获得认可,并得以运用,通过软硬件协同、多种介质灵活搭配,对档案数据实现冷热分层、分级管理[5]。此外,石墨烯、超高密光盘等新型介质也展现出独特的开发价值与广阔的应用前景,有望在未来构建起兼具长期性、容错性的档案存储生态体系。

  3.5 知识化存储与利用模式

  在数据驱动的人工智能时代,档案工作重心从馆藏转变为开发利用,尤其是深层知识挖掘和关联规则分析。传统的面向文件、以存储为中心的管理模式亟需创新改变。知识图谱作为结构化知识库的典型代表,可通过本体构建和实体链接等技术揭示档案话语背后的概念、实体及其相互关系,为用户提供更加立体、关联的知识服务。未来档案数据将与知识库、百科词条深度融合,以开放链接数据形式汇入人类知识网络,深度发挥其记忆、凭证和文化传承价值[6]。

  4  构建数字档案资源存储与长期保存的新路径

  4.1 构建多层级、多类型的存储框架与长期保存政策体系

  数字档案资源存储和长期保存需要构建多层级、一体化的政策框架。一方面,要将数字档案纳入国家大数据和数字中国战略布局,制定科学规范的数字档案长期保存战略规划和管理办法,明确责任主体、基本原则和实施路径。另一方面,要制定全生命周期数据管理政策,统筹数据采集、存储、利用和保护,实现档案管理与实践的全流程管控。要建立分层分类的存储架构,根据数据的重要性、访问频率等制定差异化的存储策略、服务水平协议,在有限资源条件下实现动态均衡。

  4.2 制定统一的技术标准、规范及评估机制

  技术标准是数字档案资源规范化管理的基础与依据。要加快构建覆盖元数据、检索接口、存储格式、数据交换、安全审计等方面的标准规范体系,形成配套、衔接的标准族,并积极推动国内标准与国际标准的对接互认。要建立健全标准符合性测评机制,对档案信息系统在功能、性能、安全、保存等方面提出明确的评测指标,引导加强标准的应用实施。

  4.3 创新安全可信、智能协同的存储管理与风险防控机制

  数字档案资源事关国家安全和社会稳定,需要强化全方位、全周期的安全防护。要形成责任明晰、流程清晰、保障具体的工作闭环,积极利用人工智能、区块链等新技术,创新档案数据全生命周期的溯源、审计、灾备机制,构建主动免疫、多方验证的安全屏障。此外,不同层级、类型的档案在长期保存中需分工协作,建立智能协同机制,实现分散存储、统一管理,促进优势互补、资源共享,提升整体效能。

  4.4 加强跨界融合,拓展存储、长期保存的广度与深度

  数字档案是人类知识文化的重要组成部分,需要积极融入广阔的数字人文领域。要加强与图书馆、博物馆、艺术馆等机构的技术创新协作与资源内容共享,在开放存档、知识关联、语义检索等方面先行先试。档案工作需要进一步拓展视野与开放合作,加强与空间地理、虚拟现实等领域的跨界创新,探索沉浸式、体验式的文化记忆场景再现,不断拓展档案价值的外延与内涵,为公众带来更为立体生动的档案文化场景。

  4.5 开展前沿理论、关键技术研究,为存储与长期保存提供支撑

  随着信息技术的迭代更新,数字档案要积极融入新时代,主动拥抱技术,持续开展前沿理论、关键技术的研究与探索。要深化档案学与计算机科学、信息科学、管理科学、数字人文等学科的交叉融合,在知识管理、大数据分析、智慧档案等方面持续深入探索,创新基础理论、方法体系与研究范式,为档案事业的数字化、网络化、智慧化建设提供理论支持。

  参考文献

  [1]刘越男,吴云鹏.基于区块链的数字档案长期保存:既有探索及未来发展[J].档案学通讯,2018(6):44-53.

  [2]何露彤,林妍歆,王春蕾.全球网络信息存档:行动全景、基本要素和关键问题[J].山西档案,2023(6):125-134.

  [3]史金.档案数字资源长期保存场景下的蓝光存储技术分析和应用策略研究[J].档案学研究,2022(5):137-141.

  [4]尹鑫.区块链技术应用于档案数据管理的调查及优化研究[J].山西档案,2023(2):102-108.

  [5]张静,王梦瑶,单嵩岩,等.磁光电混合存储在数字档案资源长期保存中的应用研究[J].图书情报工作,2020(20):89-95.

  [6]王桂香.医院档案管理的规范性治理研究[J].山西档案,2023(1):156-158.

  【基金项目】2022年河南省职业教育教学改革研究与实践项目“五维融通,六真育才”高职电商人才培养模式研究与实践[项目编号:豫教(2023)03183]。

  【作者简介】王鸿翔(1984—),男,汉族,河南洛阳人,洛阳科技职业学院电子商务学院讲师,学士,研究方向:跨境电子商务、新媒体数据分析、“岗、课、赛、证、创”五维融通数字化教学资源库建设、教师教学创新团队建设、焦裕禄精神传承与新时代工匠培养等相关研究。