发布时间:2024-12-10 08:14:12被阅览数:392 次信息来源:《山西档案》
作者:杨杰
摘要:为更好地服务数字中国、智慧社会的建设,拟在梳理人工智能技术发展动态和数字资源长期保存需求的基础上,系统分析人工智能技术应用于数字资源长期保存的机遇与挑战,并展望人工智能时代数字资源长期保存的发展图景与创新路径,以期为我国数字资源长期保存体系建设提供有益借鉴,助力数字资源长期保存与人工智能协同发展、融合创新。
关键词:人工智能;数字资源;长期保存;资源管理;融合创新
当前,以大数据、人工智能为代表的新一轮科技革命和产业变革正在席卷全球,深刻改变着人类社会生产生活方式和科技创新模式。2017年,国务院发布的《新一代人工智能发展规划》强调把发展智能技术和应用作为主攻方向,深化人工智能在各领域的应用。面对海量数字化内容的汇聚,数字资源长期保存(Long-term Preservation)已成为全球学界和业界的研究热点与前沿课题。经过数字化处理的政府数据、科学数据、档案文献、文化遗产等重要数字资源蕴藏着巨大价值,需要各机构档案部门对其进行长久、安全、有效地保存。然而,由于软硬件更新换代频繁、数据格式老化、管理流程较传统等因素,大量珍贵的数字资源面临流失的风险。因此,保存系统的可持续运营与维护、保存数据的安全性与可信性评估、资源本体与环境信息的互操作与关联、知识内涵的深度挖掘与智能应用等是数字资源长期保存所面临的关键挑战[1]。
近年来,人工智能技术趋于成熟,为破解数字资源长期保存的困局提供了新思路和新手段。目前,国内外学者已围绕人工智能在该领域中的应用开展了一系列探索与实践。例如,在数据组织方面,基于机器学习的元数据自动生成、面向专门领域的本体知识库构建、多源异构资源的语义映射与链接等,为数据的精准描述、关联与检索带来新突破。在数据管理方面,人工智能算法被用于存储数据的质量评估、完整性校验、风险预警等环节,能够及时发现和修复问题数据,保障数据的安全可靠。此外,区块链技术与人工智能的融合应用,为数据溯源、版权保护、访问控制提供了新的解决方案[2]。
尽管如此,当前人工智能在数字资源长期保存中的应用尚处于起步阶段,无论是理论方法还是实践经验都相对匮乏,距离大规模工程化应用仍有不小差距。比如,训练样本的匮乏、知识获取的困阻制约了模型算法性能的提升;模型的可解释性、预测结果的可信度有待进一步加强;缺乏智能技术选型、系统设计的规范标准和评估体系等[3]。鉴于上述问题,本文拟在梳理人工智能技术发展动态和数字资源长期保存需求的基础上,系统分析人工智能技术应用于数字资源长期保存的机遇与挑战,并展望了人工智能时代数字资源长期保存的发展图景与创新路径,以期为我国数字资源长期保存体系建设提供有益借鉴,助力数字资源长期保存与人工智能协同发展、融合创新。
1 人工智能赋能数字资源长期保存 : 机遇与价值
1.1 智能化保存流程再造,提质增效
数字资源长期保存涉及元数据提取、格式识别、质量检测、版本管理等诸多环节,工作量大、流程复杂,传统的人工处理方式难以应对海量异构资源的汇聚。将人工智能技术引入保存流程再造,通过对数据和流程的智能分析优化,能够减少重复劳动,提高数据处理效率,进而节约大量人力物力成本。例如,运用自然语言处理、计算机视觉等人工智能技术,能够实现对相关领域资源的自动分类、主题标引、摘要提取、全文识别等操作,既避免了人工录入的主观性和差异性,又能快速生成高质量的元数据。此外,通过算法深度参与资源生命周期管理,能够实现从多源异构资源的自动化采集与同步,到资源质量的智能审核、风险预警,再到知识服务的个性化定制、智能推送的转变,极大地提升了数字资源保存系统的高度智能化水平[4]。
1.2 深度挖掘数据价值,促进知识创新应用
大数据时代,数字资源的爆炸式增长不仅带来了信息获取和管理的便利,还给知识内涵的深度挖掘和创新应用带来了无限可能。将人工智能技术融入数字资源长期保存,突破了传统的资源组织模式和服务方式,使数据价值得以不断释放。例如,通过对数字资源进行多维语义建模、链接和推理等知识组织,不仅有助于破解“数据孤岛”和资源碎片化问题,实现跨库、跨域、跨语言的资源发现和关联,提升用户检索的查全率和查准率;更为重要的是,这种基于资源语义关系的组织方式更加贴近人类认知,为进一步的知识挖掘奠定了基础。此外,运用数据挖掘、机器学习算法深入分析数据资源,从海量数据中发现新颖、有效的隐性知识,形成新的关联、创造新的洞见,将促进学科交叉融合、推动知识创新,为科研与决策提供有力支撑。
1.3 智能运维与自我修复,保障系统持续稳定
数字资源长期保存系统需要持续、稳定、可靠地运行,以保障数字资产的安全性和可获取性。传统的运维模式主要依赖人工监测和处理,响应时间长、容错率低,一旦发生软硬件故障、网络异常等问题,可能造成系统瘫痪,带来不可逆的损失。相反,智能运维技术通过业务系统和IT系统的全栈式监控,借助机器学习算法快速识别故障,并在第一时间自动化修复或报警,能够最大限度地规避风险,减少故障的发生。同时,智能运维在IT资源调度、工作负载分配、容量规划等方面为决策优化提供支持,运用人工智能实现自主学习、自动优化、自我修复,加之软硬件架构的模块化设计、冗余备份,将使系统具备更强的容灾能力、稳定性和安全性,为数字资源的长期保存提供坚实的保障。
2 智能数字资源长期保存中的技术瓶颈与现实挑战
2.1 训练数据匮乏,知识获取难度大
机器学习和深度学习是人工智能的核心驱动力,其建模与优化在很大程度上依赖于训练数据的质量和规模。在数字资源长期保存领域,用于算法训练的样本数据匮乏,尤其是针对特定领域、行业的标注数据更是难以获取,成为智能技术应用的瓶颈。为此,数字资源的语义信息沉淀在资源描述元数据、专家经验知识等数据之中,如何实现这些隐性知识的显性化高效表达,并综合利用构建智能算法的知识库,是亟待解决的难题[5]。因此,高质量知识获取需要跨领域、跨机构的广泛协作,通过构建多方参与、互利共赢的数据联盟和知识共享机制,在确保数据安全、保护个人隐私的前提下,实现优质数据、经验知识的共建共享,为算法模型的持续迭代优化提供丰富的数据供给和知识支撑。
2.2 版权风险频现,数据安全性与伦理问题突出
随着数字化生产方式和传播渠道的日益多元,数据版权与知识产权保护面临巨大挑战。在现行的法律框架下,创作内容的知识产权归属模糊,数据滥用、侵权等问题频发。人工智能模型在训练过程中需要大量正版数据,若缺乏必要的授权许可,或超出合理使用的范畴,极易触碰法律红线,面临诉讼风险。此外,数据泄露、信息滥用、算法歧视等伦理问题也日益突出,数据主权安全与个人隐私保护面临严峻挑战。一方面,数字鸿沟和算法偏见可能加剧资源分配的不平等,弱势群体的利益诉求难以得到充分体现和保障,个性化信息推送也可能强化“信息茧房”的持续形成,影响个体的独立思考和价值判断。另一方面,训练数据和算法模型可能含有开发者的价值偏好,会对输出结果产生潜在影响,进而误导决策,危及系统公平性。
2.3 算法模型可解释性不足,预测结果可信度待提升
当前,人工智能在数字资源长期保存中的应用大多聚焦于感知智能层面,包括智能元数据提取、数据质量检测、本体映射等。这些应用虽在特定场景下取得了不错的效果,但在可解释性和可信度方面仍存在较大提升空间。一方面,深度学习等复杂算法在训练优化过程中形成了高度非线性、参数众多的“黑箱”模型,输入到输出的内在关联和决策路径难以用简单、可理解的语言准确阐释,造成了结果可解释性的缺失,限制了其在关键业务场景中的推广应用[1]。另一方面,由于缺乏行业基准和评估手段,机器模型产生的预测结果在人机交互过程中难以被全面理解和有效验证,用户对算法输出缺乏信任,在实际业务中的采纳度和应用率偏低。
2.4 标准规范滞后,缺乏系统性指导
当前,人工智能技术在数字资源长期保存领域的探索实践尚处于起步阶段,缺乏成熟的标准规范予以指导,行业发展较为碎片化。无论是智能元数据提取还是知识表征与组织、智能运维与服务等环节,相关的流程规范、数据标准、接口规范等尚不完善,技术研发与应用缺乏顶层统筹和整体规划。其主要原因在于不同机构、系统之间缺乏必要的协同互通,导致标准与评价体系的缺失,同时制约了跨界创新和大规模工程化应用。此外,从国家政策导向来看,现有的标准规范、评价指标较为笼统宽泛,在垂直领域的细分场景中尚未形成全面、系统的测评标准,在一定程度上制约了创新技术的推广普及。
3 数智化视域下数字资源长期保存的创新与展望
3.1 重构范式与服务创新
人工智能的发展应用为数字资源长期保存系统架构与服务模式的变革带来新的契机。在系统架构方面,传统以中心化存储为主的系统架构已难以适应新形势下的发展需求,单一的存储方式在可靠性、安全性等方面存在短板[2]。未来,数字资源长期保存可将区块链技术与人工智能技术深度融合,利用区块链确保数据来源可信、过程可追溯、行为可审计,保障数据质量与安全;结合智能合约、联邦学习等技术来创新知识产权保护和激励机制,实现关键数据与算法模型的安全共享,进而促进资源聚合流通和价值提升。在服务模式创新方面,基于人工智能技术,数字资源长期保存相关服务将从资源导向转向需求导向和知识导向,从而充分挖掘用户使用行为和偏好,洞察数字资源之间的知识关联和内在逻辑,为用户提供更加精准、个性化、智能化的服务。
3.2 人机协同与生态营造
推进人工智能与数字资源长期保存的深度融合,需要政产学研用多方协同,打破领域藩篱,加强跨部门联动,从而推动人工智能、图书馆学、情报学、档案学、计算机科学等多学科交叉融合发展,在诸多垂直领域开展联合攻关,促进前沿理论、关键技术、行业应用等多层次创新突破,形成目标同向、优势互补、资源共享、成果共用的发展合力,为智能化保存实践提供坚实支撑。未来,要充分发挥人工智能的赋能作用,将其深度融入数字资源长期保存的全流程各环节,以人机协同、智能增强等形式提升数据采集、存储、管理、分析、应用的效率和精度,推动业务流程再造与优化,实现人机优势的互补,创新人机协同的新模式新业态。
3.3 智能管理与智慧应用
随着人工智能的快速发展,智能技术在数字资源组织、揭示、利用等环节的应用将不断深化,在更多业务场景中发挥智能处理、智能分析、智能服务的功能,为数字资源全生命周期管理注入新动能。未来,要进一步聚焦数字资源管理的业务需求和应用痛点,针对性地开展人工智能关键技术攻关,加快智能方法在垂直场景中的创新应用。例如,在资源组织方面,综合利用自然语言处理、知识图谱等技术,充分挖掘不同垂直领域的隐性知识,促进学科交叉融合,为用户提供全面、准确、及时的知识发现与洞察服务;在数据应用方面,利用数据挖掘、机器学习等算法,对资源使用情况和用户行为进行多维度分析,精准刻画用户画像,为用户提供个性化、情境化的智能推荐和智能问答服务。
3.4 人才培养与技能提升
数字资源长期保存引入人工智能技术对从业人员的知识结构和专业素养提出了新的要求。首先,要加强学科交叉融合,加快建设人工智能、大数据技术、知识管理等相关专业,大力推进跨学科复合型人才活动培养;其次,要建立健全与智能时代相匹配的教育培训体系,有针对性地开展专题培训、案例教学、在岗实践等,帮助从业人员及时更新知识体系,掌握智能技术应用的新理念新方法。未来,要立足岗位需求,创新多元化、个性化的智能学习支持服务,营造主动学习、持续学习的良好氛围,全面提升从业人员的数字素养和智能化适应能力,培养具备前瞻意识、创新精神、智能思维的高素质专业人才队伍,以适应新技术环境下数字资源长期保存事业发展的新要求。
4 结语
综上所述,本文深入探讨了人工智能时代背景下,人工智能技术在数字资源长期保存领域的应用,为其提质增效注入了新动能,为其高质量发展带来了新契机。人工智能技术应用于数字资源长期保存的各环节和流程,将产生深远的积极影响,既能对数据保存和管理流程进行智能分析优化,又能提高数据处理效率,减少重复劳动,进而节约大量人力物力成本,还将有助于深度挖掘和释放数据价值,促进知识的创新应用,极大地提高数字资源长期保存系统的容灾能力、稳定性和安全性。但是,当前人工智能在数字资源长期保存中的应用尚处于起步阶段,无论是理论方法还是实践经验都相对匮乏,距离大规模工程化应用仍有不小差距,主要问题包括用于算法训练的样本数据匮乏、知识获取难度大、版权风险频现、数据安全性与伦理问题突出、算法模型可解释性不足、标准规范滞后等方面。展望未来,通过人工智能技术与区块链技术的深度融合应用,积极营造良好行业发展生态,将为数字资源长期保存的创新发展带来巨大机会,有力促进数字资源在组织、揭示、应用、服务等全流程各环节得到全面优化,从而实现数字资源长期保存与人工智能协同发展、融合创新。
参考文献
[1]王鸿翔.人工智能时代下数字档案资源存储与长期保存的新模式与新路径探索[J].山西档案,2024(3):175-178.
[2]刘越男,吴云鹏.基于区块链的数字档案长期保存:既有探索及未来发展[J].档案学通讯,2018(6):44-53.
[3]郑燕.人工智能赋能高校图书档案资源数字化融合服务研究[J].山西档案,2024(2):152-154.
[4]谢永宪,王巧玲,房小可,等.我国国家综合档案馆数字档案信息长期保存现状调查[J].档案学通讯,2019(4):58-62.
[5]宋奕宁,向禹.电子文件长期保存研究综述[J].山西档案,2020(05):169-175.
【作者简介】杨杰(1970—),男,苗族,贵州凯里人,四川师范大学图书与档案信息中心副主任,图书馆副馆长、馆员,硕士,研究方向:信息资源、人力资源建设与管理。