红色档案智慧数据:概念、组织与应用

发布时间:2024-08-27 20:08:34被阅览数:221 次信息来源:《山西档案》

  文/严孝珍 张秀红

  摘 要:红色档案是中国共产党和人民群众宝贵的精神财富,在新时代对其进行智慧化管理与创新利用是必然要求。红色档案智慧数据在思政教育、学术研究、社会记忆、红色旅游、文创产业等领域有广泛的应用前景。智慧化管理是新时代红色档案创新发展的重要路径,对于传承红色基因、赓续红色精神血脉具有重要价值。

  关键词:红色档案;智慧数据;数字人文;应用场景;红色基因

  习近平总书记指出:“红色资源是我们党艰辛而辉煌奋斗历程的见证,是最宝贵的精神财富。”《“十四五”文化发展规划》着重强调“要深入开展革命历史总体研究和专题研究,加大革命史料和文物调查征集研究力度”。这表明充分挖掘和利用红色档案资源的思想价值、历史价值、精神价值已成为新时期重要的政治任务和文化使命。近年来,图书馆、档案馆、博物馆等文化遗产机构开始尝试利用知识图谱、语义分析、智能计算等与智慧数据相关的技术,革新传统资源组织管理模式,创新服务效能。相比传统的电子文档数据,智慧数据具有更丰富的语义内涵、更灵活的计算分析能力、更广泛的关联融合潜力,为数据资源的深度利用提供了全新视角。将智慧数据理念与技术引入红色档案资源管理与利用,有望进一步激活中国特色档案所蕴含的知识价值。

  1  红色档案智慧数据的概念内涵与演进

  1.1 红色档案智慧数据的特殊内涵

  红色档案是指中国共产党团结带领广大人民群众在开展革命斗争和政治活动过程中形成的具有保存价值的历史记录。红色档案不仅记录了中国共产党和人民群众英勇奋斗的光辉历史,还凝结了弥足珍贵的革命精神。在大数据、人工智能等技术快速发展的背景下,充分运用新技术、新方法深入挖掘红色档案所蕴含的丰富知识和思想,对于传承红色基因、坚定文化自信、推动爱国主义教育等具有重要价值。智慧数据作为大数据环境下的新型数据形态,其概念内涵尚在不断深化中。曾蕾等指出,“智慧数据是数据高质量与价值化的体现”,一方面表明智慧数据旨在充分发掘数据所蕴含的知识价值,另一方面也强调智慧数据本身具备承载知识的能力。因此,从情境化、可认知、可预测的特点来看,智慧数据的特征主要体现为富语义性、可解释性、可计算性、可追溯性等[1]。

  结合红色档案和智慧数据的概念内涵,本文认为红色档案智慧数据可以理解为利用语义技术、知识图谱、大数据分析等新一代信息技术手段,将红色档案数字化后形成的非结构化、半结构化数据加工、提炼为结构化、语义化、关联化、知识化的高价值数据资产。这些数据资产能充分反映红色档案所承载的历史知识、革命精神和教育意义等深层内涵,能较好地支持红色档案资源的深度利用和创新应用。

  1.2 红色档案智慧数据的演进过程

  融合陈涛提出的智慧数据的详细技术路线,红色档案智慧数据生成需要经历原生数据、语义数据、关联数据、智能数据和智慧数据五个阶段。原生数据到语义数据的转变要经历数字化、文本化和概念化,具体是指利用本体建构、实体识别等技术处理尚未经过加工的红色档案原始数字化形态,如文本、图像扫描件、音视频等,为原生数据赋予机器可读的语义数据。运用本体映射、数据关联等技术把多源异构的档案语义数据融合成关联数据。智能数据的形成主要依赖知识图谱构建、知识推理技术运用等环节使档案知识具备可计算、可推理等智能化特征。最后形成的智慧数据能用于辅助智慧决策、创新应用等。这一演进过程体现了红色档案数据从非结构化向结构化、从单一语义向关联语义、从知识碎片化向知识体系化的递进式发展,也反映出智慧属性逐步在档案数据中体现,促进红色档案数据从简单的原生记录向高价值、高效能的智慧化知识资产加速转变。

  2  红色档案智慧数据的组织方

  2.1 语义化:实体识别、关系抽取与本体构建

  红色档案智慧数据的首要特征是人机可读、富含语义、可解释等,语义化处理是组织红色档案智慧数据的基础。语义化的核心任务是从原始档案文本中提取关键实体、识别实体间的语义关系,并利用本体、主题标签等形式化工具将这些语义信息建模,从而赋予档案数据以计算机可理解、可计算的结构化语义[2]。其中,实体识别旨在确定红色档案文本中的人名、地名、机构名、事件名等核心实体对象;关系抽取则进一步刻画实体之间的隶属、参与等语义关联。在此基础上,本体作为一种形式化的概念模型,能以类、属性等方式显性地表征出领域概念体系及其内在关系。以广州市红色建筑照片档案知识组织为例,李海涛等重点梳理红色档案情境化叙事所包含的“人、地、时、事、物”等档案数据,形成该领域的分类标签,继而从档案文本中提取实体、关系等关联数据类型,最终构建起较为多维的知识图谱[3]。因此,通过实体识别、关系抽取、本体构建等系列语义化处理,能很好地揭示红色档案所蕴含的“人、事、时、地、组织”等要素及其内在联系,为档案资源的关联化应用奠定语义基础。

  2.2 关联化:本体映射与链接数据

  由于红色档案资源分散在不同的档案馆、纪念馆等文化遗产机构,而且采用不同的元数据规范与标准进行描述,导致这些异构分布的档案数据之间缺乏互联互通、难以协同利用。因此,在对单一档案资源进行语义建模的基础上,还需要采用本体映射、链接数据等技术实现分布于不同节点的多源异构档案语义关联,最终形成资源共享、知识聚合的“一体化知识网络”。首先,本体映射的作用旨在建立不同本体间的语义转换规则,从而消除本体描述异构性导致的语义壁垒。学界已提出多种本体映射方法,如基于语言学特征的字符串匹配、基于外部资源的锚定等。其次,语义网技术为关联数据提供了标准化表示形式。相关研究指出,采用资源描述框架(Resource  Description  Framework,  RDF)等语义网通用数据模型,能很好地实现不同来源数据的语义表示与链接,进而构建起可供智能化检索、推理的关联数据网络。因此,本体映射与基于本体对齐和实体对齐的链接数据技术的应用,有助于打破档案资源分割局面,实现红色档案在更大范围内的关联整合与集成应用。

  2.3 知识化:知识图谱构建与知识推理

  红色档案智慧数据的一个重要价值体现在于构建高阶知识库,支持基于档案服务需求的知识分析、推理与发现等过程。其中,知识图谱作为结构化知识库的代表形式能直观呈现档案资源蕴含的知识体系及其内在关联。国内学者在红色档案知识图谱研究方面已有诸多尝试,如张强等构建了皖籍开国将军的知识图谱[4],张云中等构建了老上大历史人物数字资源的知识图谱等[5]。在红色档案语义关联基础上,通过概念层次化组织、属性映射、实例填充等最终形成较为丰富的红色档案领域知识图谱。知识推理则是在知识图谱的基础上运用逻辑描述、规则推理等方法,挖掘和发现蕴含在知识库中的隐性知识。例如,基于本体与规则的推理,能从革命人物活动时空信息中发现其所处组织的迁移路线等深层模式。

  2.4 智能化:智能计算与深度学习

  在语义化、关联化、知识化等处理的基础上,引入智能计算与深度学习等自然语言处理技术,可进一步提升红色档案智慧数据的智能化水平。一方面,知识计算旨在赋予知识以可计算性,即将知识库中的概念、实例、关系等映射为词向量的预训练模型,使其能参与向量空间的数值计算,以支持知识的表示学习、推理预测等智能化任务。例如,将红色档案知识库表示为低维稠密向量,并利用图神经网络等对其进行表示学习,即可实现档案资源的语义关联计算、相似推荐等。另一方面,深度学习的应用主要体现在知识抽取与挖掘、跨模态知识关联、人机对话问答等方面。例如,BERT(Bidirectional  Encoder  Representations  from  Transformers)等预训练语言表征模型能很好地支持档案文本的语义表示,而基于Transformer的计算机视觉等多模态深度学习模型则可实现档案图像、视频等非结构化数据与结构化语义的关联。

  3  红色档案智慧数据的应用场景

  3.1 面向思政教育场景的应用

  习近平强调,要“用好红色资源、赓续红色血脉”,深刻地表明了红色档案在新时代思想政治教育中具有重要的精神感召力。红色档案智慧数据的场景化应用能够充分发挥红色文献典籍的德育价值。当前,面向思政教育的红色档案智慧数据主要有两种应用形式:一是支持基于档案大数据的深度教学分析与教学干预,即充分挖掘学生在学习红色档案资源过程中表现出的认知水平、情感倾向等,为有针对性地改进教学设计、优化教学策略提供依据。二是辅助革命历史进行虚拟仿真教学软件的开发,如基于智慧档案构建革命事件三维场景,引入虚拟讲解员、启发式问答等交互功能,更能引发学生的情感共鸣,达到沉浸式体验效果。

  3.2 面向学术研究场景的应用

  红色档案智慧数据作为历史学、档案学、数字人文等人文社会科学研究的重要素材与数据来源,能够为学术研究提供坚实的基础资源。对比传统档案的利用方式,研究者需要耗费大量时间、精力在档案采集整理上。在智慧数据时代,以实体识别、语义标注、知识关联等为核心的自然语言处理技术日益成熟,海量红色档案资源有望形成语义清晰、内容丰富、关联广泛的学术大数据,为科研提供了高质量语料资源,进而提升档案资源价值的获取与分析效率。例如,在数字人文研究范式指导下,运用文本挖掘、社会网络分析、时空分析、GIS等典型方法,针对红色档案进行学理化解构和价值再阐释,重现红色档案的革命精神与内在价值。同时,利用共词分析、主题模型等方法,可揭示红色档案中的主题演化特征,帮助研究人员梳理相关事迹,深入掌握其中的规律等。

  3.3 面向社会记忆场景的应用

  与重大历史事件、重要历史人物、革命精神传承等紧密相关的红色档案都是社会记忆场景构建关注的重点。针对红色档案资源的数字化与智能化管理,为传承红色记忆、讲好中国故事拓展了新空间。面向社会记忆场景构建的红色档案智慧系统,不仅有助于红色文化的普及传播,还更能唤起红色记忆、凝聚精神共识。同时,通过网上展厅、数字纪念馆等形式,红色档案中的革命历史、英雄人物事迹也能突破时空阻隔,焕发出新的生命力。一些研究者还尝试采用知识图谱、沉浸式体验等智慧化手段再现重大革命历史事件,进一步拓展档案资源的社会教育功能。

  3.4 面向文创产业场景的应用

  《关于推进实施国家文化数字化战略的意见》强调“要加快文化产业数字化布局,引领文化产业数字化建设方向”。因此,将红色档案智慧数据与文创产业相结合,有望催生出更多生动鲜活、贴近时代的创意表达,促进文化数字经济发展。在文创产业链各个环节应用红色档案资源,能有效拓宽创意素材来源,增强文化产品的内涵。同时,红色档案智慧数据也为文创产品注入“智慧因子”。例如,中国延安精神研究会整理《红色延安老照片系列》,并融入增强现实技术(AR),使历史革命旅程活化与重构,为用户带来沉浸式视觉体验。因此,在数智时代,“红色档案+文创”正在成为传承红色基因、激发创意活力的重要路径。

  参考文献

  [1]范炜,曾蕾.AI新时代面向文化遗产活化利用的智慧数据生成路径探析[J].中国图书馆学报,2024(2):4-29.

  [2]李宗俊,范炜.面向智慧数据的语义丰富化方法及应用评述[J].情报科学,2021(7):186-192.

  [3]李海涛,张俊杰,陈思伶,等.红色档案的组织及开发研究:以广州市红色建筑照片档案为例[J].档案学研究,2024(2):82-90.

  [4]张强,高颖,刘飞,等.基于知识重组的红色历史人物智能服务研究[J].现代情报,2023(7):96-108.

  [5]张云中,郭冬,王亚鸽,等.基于知识图谱的红色历史人物知识问答服务框架研究[J].图书情报工作,2021(16):108-117.

  【作者简介】严孝珍(1988—),女,汉族,山东枣庄人,新疆师范大学马克思主义学院博士在读,研究方向:思想政治教育;张秀红(1970—),女,汉族,新疆奎屯人,新疆师范大学马克思主义学院教授、博士生导师,硕士,研究方向:思想政治教育。