基于深度学习的多模态档案资源的集成管理

发布时间:2024-10-28 08:37:46被阅览数:95 次信息来源:《山西档案》

  作者:赵子叶
  摘要:数智时代,档案资源日益呈现多模态异构特征,传统档案管理方法难以有效应对海量多源异构档案数据的集成管理与融合利用。聚焦多模态档案资源智慧化集成管理,探索利用深度学习技术,创新多模态档案资源管理与知识服务模式;在系统分析多模态档案资源特性的基础上,提出深度学习驱动的多模态档案资源表示学习与跨模态语义关联分析方法,构建从资源端到服务端的集成管理一体化模式,以期为推动档案事业数字化、智能化发展提供借鉴。
  关键词:多模态档案资源;深度学习;异构数据融合;智慧档案管理
  数智时代的不断发展推动着档案资源从纸质形态向数字形态、从单一模态向多模态加速演进。文本、图像、音频、视频等多模态档案资源日益丰富,呈现出异构性和语义关联性并存的特点。《“十四五”全国档案事业发展规划》重点提出了“加快推进档案科技创新”“完善档案科技创新和应用机制”等一系列要求。面对海量多源异构的档案数据,传统档案管理方法难以实现对档案资源内容的深度揭示、跨模态关联和融合集成,驱需创新技术手段来破除多模态异构档案数据管理与集成利用的阻碍。纵观国内外相关研究,多数学者围绕多模态档案资源的建设与管理开展了一系列研究。例如,有学者聚焦文本、图像、音频、视频等单一模态档案资源的数字化处理与管理,但缺乏对多模态档案资源整体的考量;也有学者提出利用语义关联、知识聚合等技术促进多模态档案资源的融合[1],但尚未研究如何充分利用人工智能前沿技术来实现多模态数据的自动化、智能化管理。然而,当前档案领域仍缺乏对应的技术先进、功能完备的多模态档案资源集成管理解决方案[2]。鉴于此,本文聚焦数字时代多模态档案资源集成管理这一关键问题,拟利用深度学习这一前沿人工智能技术,探索多模态档案资源的表示学习与语义关联分析方法,构建一种智能化的多模态档案资源集成管理模式,以期实现档案资源的跨模态关联、语义融合与集成利用,更好地服务于档案知识发现和智慧档案管理。
  1  多模态档案资源的特点分析
  1.1  多模态异构性:档案资源类型的多样性
  随着新一代信息技术的更新选代,档案资源的形态从单一的文本文件向多媒体、多形态延伸,呈现出多模态异构性的显著特征。所谓“模态”,在计算机科学中通常是指不同形式、不同来源的数据,既包括文本、图像、音频、视频等常见数据形式,也涵盖可见光、红外、微波、温湿度等物联网传感器采集来的数据。关于多模态档案资源的定义,有学者将其界定为以文字、图像、音频、视频等为主要表现形式的档案资源,涉及文书档案、照片档案、声像档案、口述历史档案等。总体来说,多模态档案资源涵盖了档案工作中诸多档案门类,体现了档案资源类型多样性发展的时代特点。这种多样性极大丰富了档案资源的信息内涵,也对档案资源的管理与利用提出了新的技术要求。
  1.2  语义关联性:不同模态档案资源的内在语义联系
  虽然多模态档案资源形态各异、复杂多变,但是其蕴含的内容实质上存在一定语义关联。有研究表明,针对同一事物的不同表现形式而产生的各种各样数据都可称为一种模态,多模态则是指两个或两个以上模态的组合。由此可见,尽管表现形式不同,但描述同一事物、现象、行为的多种模态档案资源在语义层面必然存在内在联系。牛力等[3]以吴宝康名人档案为例,发现吴老先生一生中珍贵的老照片、相关专著论文、实物等多模态档案资料围绕人物事件形成语义关联。因此,语义成为关联多模态异构档案资源的纽带,通过语义分析、关联与融合能够实现多模态档案资源的融合与集成化管理。
  1.3  集成管理需求:多模态档案资源开发利用的客观要求
  多模态异构性和语义关联性的双重特征为集成管理多模态档案资源提出了客观的需求。一方面,基于多模态档案资源分散异构的现状以及由此带来的数据割裂、数据孤岛、数据壁垒等主要阻碍,函需构建统一的资源组织框架和利用集中管理手段解决实际问题。另一方面,多模态档案资源蕴含的语义关联为其融合集成提供了现实可能,通过语义增强、跨模态关联等方法可实现档案资源的“融合一体、关联一体”。新一代信息技术的发展为构建多模态档案资源集成管理平台提供了有力支撑,以知识图谱、深度学习等为代表的人工智能技术能够助力多模态数据的智能化管理、语义化组织和关联式检索,为用户提供全新的沉浸式、个性化的档案知识服务[4]。
  2  基于深度学习的多模态档案资源融合方法
  2.1  多模态数据深度融合
  深度学习技术作为人工智能领域的前沿技术,以其强大的特征学习和跨模态关联能力为多源异构的多模态数据融合与管理提供了新思路、新方法。有学者指出,深度学习技术通过构建多层次神经网络模型,能够自动学习不同模态数据的层次化特征表示,挖掘模态内和跨模态的语义关联,实现多模态数据的有效融合。同样地,在计算机视觉、自然语言处理等领域,深度学习模型展现出优越的特征表示和关联理解能力,为多模态档案数据的智能化处理提供了技术支撑。
  2.2  多模态档案资源表示学习
  不同模态的档案数据在编码、存储格式、时空粒度等方面存在显著差异,缺乏统一的表示形式,因此,要想实现多模态档案资源的融合管理,首要任务是探索异构档案数据的统一表示方法。表示学习是深度学习的核心思想之一,旨在自动学习样本的抽象特征表示,揭示样本间的内在联系。将深度表示学习引入多模态档案资源管理,能够实现不同模态档案数据的统一特征表示。具体而言,可以先利用专门的深度学习模型分别提取档案文本、图像、音视频等模态的深层特征,如使用word2vec、VGG、GAN等模型在特征层面进行模态间的关联映射,构建统一的跨模态语义表示空间,形成多模态档案资源的一体化表示框架。
  2.3  多模态档案资源关联分析
  在获得统一的多模态档案资源表示的基础上,进一步分析不同模态档案资源间的语义关联是实现其融合集成的关键。传统多模态关联分析往往依赖于人工定义的规则或特征,泛化能力不足。而基于深度学习的人工智能技术能够充分挖掘多模态档案数据的底层特征,建立模态间的隐式关联映射,发现难以用显式规则描述的语义关系。例如,深度跨模态哈希、深度跨模态注意力机制等能够学习不同模态档案资源的共享语义表示,构建模态间的语义映射函数;知识表示学习能够将档案知识库中的概念、实体、关系嵌入统一的低维语义空间,发现概念层面的跨模态关联。在此基础上,结合档案语义本体、知识图谱等,可进一步扩展、推理多模态档案资源间的语义关联,实现跨模态档案的关联组织、融合检索与集成管理。
  3  面向知识服务的多模态档案资源集成管理模式
  3.1  多模态档案资源集成管理的价值
  多模态档案资源蕴含丰富的显性知识和隐性知识,集成管理是充分挖掘和利用这些知识的前提和基础。集成管理强调站在全局视角,对分散在不同载体、不同系统中的多源异构档案资源进行系统梳理、统筹规划、标准化管理,在逻辑上建立资源的关联,在物理上实现资源的聚合,最终形成统一的资源整合框架和集中管控机制,能够有效消除多模态档案资源管理中的“信息茧房”“数据烟卤”等弊端,实现资源、元数据、工具的全面贯通与深度融合。集成管理通过构建一体化资源大仓和关联化知识组织网络,实现“一站式”档案信息聚合与集成服务,为档案知识发现、关联、推理等智能化应用夯实了基础。由此得出,多模态档案资源集成管理已成为智慧档案管理的关键课题,是推动档案资源知识化开发与服务的必由之路。
  3.2  集成管理驱动智慧档案知识服务模式创新
  智慧档案建设成为新时代档案管理和服务的战略主题,其核心在于利用智能技术赋能档案业务流程再造和服务模式创新。而多模态档案资源集成管理正是驱动智慧档案知识服务模式变革的关键力量。首先,借助知识图谱、本体等语义技术,能够实现档案资源的知识化组织与关联化检索,使档案目录从一维扁平走向多维立体,进而实现语义关联,让用户检索从关键词匹配走向概念语义、知识推理,极大拓展了档案开发利用的广度和深度。其次,引入深度学习等人工智能算法,可深度挖掘多模态档案资源的内在语义,揭示事物的因果联系,形成跨媒体、跨模态的知识链接,实现从信息检索到知识发现、从被动服务到主动推送的智能化升级。最后,基于虚拟现实、人机交互等新技术,可创造沉浸式、交互式的档案知识服务新场景,让用户身临其境地感受档案的魅力、在交互体验中获取知识启发,开启智慧档案知识服务新范式[5]。
  3.3  融合多元技术设计全流程一体化集成管理模式
  综合多模态档案资源特点和智慧档案发展需求,本文提出了一种融合多元技术,覆盖采集、组织、关联、检索等环节的多模态档案资源集成管理模式。该模式以深度学习技术为核心技术支撑,以知识图谱、本体等语义技术为知识组织工具,构建起资源采集、语义标引、特征表示、关联分析、知识推理、智能检索、可视化展示等功能模块,实现从多源档案数据到集成知识库再到智慧服务的闭环流程。展开来讲,首先,在资源采集方面,综合利用网络爬虫、众包等技术手段,实现多渠道多形态的档案资源自动获取与聚合。其次,在语义组织方面,引入基于深度学习技术的多模态语义表示模型,对档案文本、图像、音视频等异构资源进行统一语义建模,提取语义特征,并使用知识图谱、本体等语义技术将概念、实体、关系形式化表示,建立语义增强的档案知识库。此外,关联分析模块主要利用深度表示学习和跨模态映射机制,挖掘档案实体、概念的多维语义关联,增强知识库的关联密度。最后,在智能检索方面,融合知识推理、语义搜索等技术,实现跨模态档案资源的关联式检索和智能问答,并通过基于可视化交互的设计为用户提供沉浸式、个性化的档案知识服务。
  4  结语
  多模态档案正在成为数字时代档案的新常态,其多源异构、深度关联的特征对传统档案管理方法构成挑战。本文面向多模态档案资源智慧化集成管理这一关键问题,探索利用深度学习技术实现多模态档案资源的表示学习与语义关联分析,构建资源端到服务端的一体化集成管理新模式,在理论和实践层面进行了富有成效的探索;通过系统分析,将深度学习、知识图谱等前沿技术与档案管理进行创新性结合,形成从采集、组织、分析、检索到服务的端到端闭环流程,能够有效破解多模态异构档案资源管理难题,实现资源的跨模态语义融合与关联利用,为档案资源的知识化开发与智慧化服务提供新路径。
  参考文献
  [1]卢小宾,霍帆帆,王壮,等,数智时代的信息分析方法:数据驱动、知识驱动及融合驱动[J].中国图书馆学报,2024, 50(1) :29-44.
  [2]刘伊玲,王胡燕,杨本富,等.智能小档:基于深度学习的智能化科技档案管理的应用研究[J].山西档案,2023 (5) : 136-142.
  [3]牛力,展超凡,高晨翔,等.人物事件导向的多模态档案资源知识聚合模式研究[J].档案学通讯,2021(4):36-44.
  [4]崔浩男,潘洁敏:记忆建构视角下多模态档案资源融合开发模式研究[J].档案学研究,2023(3):96-103.
  [5]崔浩男.多模态档案知识服务平台的基本特征与价值取向:基于国内外20个案例的分析[J].档案学通讯,2024(1) :70-78.
  【基金项目】陕西省档案局科技项目“陕西医学院校红色医疗档案与大学生红色基因传承研究”(项目编号:SX-2020-R-03)。
  【作者简介】赵子叶(1990一),女,汉族,陕西西安人,西安医学院人事处馆员,硕士,研究方向:高校人事档案。