红色档案语料库构建的原则与方法

发布时间:2024-08-05 19:28:03被阅览数:56 次信息来源:《山西档案》

  文/娄丽娜

  摘 要:红色档案语料库是数智环境下对红色档案资源进行数据化开发利用的重要基础。结合红色档案语料库的特点,提出红色档案语料库的构建要遵循全面性、数据化、规范化和安全性等基本原则,并从语料库设计、语料采集、数据标注、数据存储、数据更新与维护等方面分析了语料库的构建流程与方法,为相关机构开展语料库建设工作提供有益的参考。

  关键词:红色档案;语料库;资源建设;档案开发利用

  红色档案资源是档案资源体系的重要组成部分,对于传承红色基因、赓续红色血脉具有独特的价值。习近平总书记在对档案工作的重要批示中特别提到了两个“好”——“要把蕴含党的初心使命的红色档案保管好、利用好”,对新时代红色档案资源的开发利用提出了新的要求。2023 年,全国档案局长馆长会议强调:“用好用活红色档案资源,通过举办主题展览展示、创作影视作品、汇编出版文献、打造“云课堂”等方式,推出一批红色档案资源精品力作”。然而,用活用好红色档案资源的关键在于资源供给。特别是在数字化深度融入档案工作的时代,无论是对红色档案资源的数字加工、知识组织、知识发现,还是以多元化的形式向公众呈现,都离不开档案语料库的构建。语料库一般是指经过科学取样和加工的大规模电子文本库,是研究者利用计算机开展数据计算和科学研究的基础。红色档案资源语料库是由人工或机器标注好的红色档案材料组成的数据集。语料库建设质量除了受到数据规模的影响之外,还受到术语规范化、标注质量、模型选择等因素的影响。本研究目的在于,通过厘清红色档案语料库构建的原则和一般流程、方法,为档案部门、文史机构和相关科研单位开展红色档案资源建设提供可靠的方法指导。

  1  相关研究

  红色档案的价值已经得到了研究者的普遍认同,传播红色思想、弘扬社会正能量、增强文化自信、宣传社会主义核心价值观、传承文化基因等表述被广泛采用。曹欣恺、周林兴提炼了红色档案的文化价值,认为红色档案资源具有传承中外友谊、凝聚发展共识;传承红色基因、夯实文化自信;建立群体认同、汇聚民族力量等文化价值[1]。红色档案资源建设一直受到研究者的关注,研究视角较为多元,涉及红色档案资源体系建设、红色档案资源开发利用、红色档案资源案例研究等。数字化的手段和方法广泛应用于红色档案资源建设和开发利用。孙大东、张怡涵基于事理图谱的技术方法从红色档案资源采集整合、事理图谱构建等维度提出了红色档案资源开发利用的路径[2]。红色档案资源多作为数字人文研究的对象和基础数据来源,研究者通过本体构建、知识图谱、知识发现等手段实现对红色档案资源的多维展示,例如俞露以数字人文为视角、以陕甘宁边区政府文件为数据集,构建了陕甘宁边区政府文件本体模型、构建了知识图谱[3],这是对红色档案数据库应用的有益尝试。然而,尽管数字人文研究如火如荼,但是受限于语料库建设的滞后,研究成果难以令人满意。对语料库建设的研究大多集中在图情领域,从黄水清、王东波的研究综述可以看出,国内语料库的研究经历了三个主要阶段,技术驱动的取向非常明显,研究内容主要集中在语料库的构建、语料库的应用、语料库的案例等方面,每个主题下又有若干细分方向[4]。从整体来看,在档案学领域,专注于档案语料构建技术和方法的文献并不多见。基于这样的分析,本研究具有较强的指导意义和研究价值。

  2  红色档案语料库构建的基本原则

  2.1 全面性原则

  由于红色档案是一个集合概念,其语料库的构建通常是以专题或者事件为单元进行数据收集的。为了确保数据收集的全面性,红色档案的来源通常并不拘泥于单一的馆藏单位,保存在档案馆、图书馆、文化馆、史志办等文化机构的相关材料都应该纳入收集范围。全面性原则对红色档案资源管理体制提出了新挑战,需要建立不同行政归属部门之间的联动机制,打破不同部门之间的界限和藩篱,通过构建协同机制确保红色档案来源的多样性。与此同时,语料库对资源的属性并没有特殊要求,换句话讲,在全面性原则的统筹下,无论是档案、图书、文献、口述历史、实物信息等都应该纳入红色档案语料库的归集范畴。作为语料库构建的重要基础,红色档案的全面性决定了数据集的规模和质量。

  2.2 数据化原则

  与一般的资源库、数据库不同,可计算性是语料库的一个重要特征。因此,红色档案资源必须经历从数字化到数据化的过程,红色档案的数据化水平成为决定语料库构建质量的关键要素。从当前的实践来看,各馆藏机构的数据化程度参差不齐,尽管很多机构都在大幅度提升馆藏档案的数字化水平,但是从数字化到数据化应用的最后一公里还没有完全打通。有数据化的资源作为基础,才能进行高质量的人工标准和信息技术部署,进而才可能利用机器学习、人工智能等新技术、新手段进行数据化组织。

  2.3 规范化原则

  红色档案资源大多呈现出多源异构的特征。规范化的一个方面就是对多源异构的数据进行标准化、结构化处理,在统一的描述框架下进行资源的组织和加工。另一方面,随着自动分词、语义抽取等技术的不断发展,术语的规范化表示也得到了长足的发展。规范化表示除了受到技术的影响以外,数据描述框架、情感词典等工具的顶层设计也成为重要的决定因素。

  2.4 安全性原则

  红色档案与其他类型资源相比有显著不同,在进行利用时需要确保安全。由于红色档案语料库数量大,很多计算结果无法通过人工进行审查,这就需要在技术和管理机制方面进行控制,如情感词典的构建就需要考虑到安全性需求。此外,在计算结果的应用方面,也不必完全信赖数据分析结果,需要充分发挥领域专家的作用,采用人工参与的半自动方式来确保红色档案利用的安全性。此外,我们在数据存储、数据传输、数据应用过程中也需要考虑载体安全和内容安全的基本要求。

  3  红色档案语料库构建的流程与方法

  3.1 红色档案语料库设计

  红色档案语料库的整体设计是构建语料库的前提,主要内容包括红色档案语料库的功能结构和系统架构。具体而言,在总体设计阶段,要明确语料库建设的总体目标、服务对象和结构内容。总体而言,红色档案语料库建设具有特色性、专业性、权威性和结构化等特征,主要服务于相关科研需要,依托大规模的语料实现对红色档案内容的深度挖掘和知识发现,服务于传统的相关研究专题,对常规研究方法起到有益的补充作用。红色档案语料库的系统结构是以语料库为核心,包括计算机硬件、软件以及语料库用户、语料采集和加工规则、语料库管理和应用程序的一个完整系统[5]。做好语料库构建的顶层设计和规划有利于后续工作部署的实现。

  3.2 红色档案语料采集

  首先,要明确红色档案语料的数据来源。保管单位的馆藏资源是数据来源的主体,受到数据化水平的影响,这部分资源的数量也存在不能保证的风险。除此之外,现有的文献数据库、专题性网站、用户生成内容(UGC)、电子文本的专业书籍等都能作为红色档案语料的重要来源渠道。其次,要确定红色档案语料的采集方案。语料采集技术方法是采集方案的重要组成部分,除了常规的规模化采用结构化数据之外,其他技术方法也被经常使用,例如,对于UGC数据,一般采用网络爬虫工具来进行采集,以丰富数据内容。由于红色档案具有真实性和权威性等基本特征,为确保数据集合的整体质量,其他来源的数据质量同样值得关注,这也是体现红色档案独特资源属性的重要方面。

  3.3 红色档案数据标注

  数据标注是语料库构建的核心,也是难点工作之一。研究者围绕数据标注问题的研究最为热烈。通常认为,做好语料标注工作,就能够保障语料库的质量,确保语料库研究成果的准确性和使用效率。其中,语料库数据标注的细粒度和策略方法受到的关注最多。语料库标注的粒度根据语料库构建的目标不同而呈现出多样化特征,但是总体来说分词和词性标注被认为是数据标注中最重要的两种策略。语料库的标注策略大体上分为人工标注、机器标注和半自动标注。人工标注费时费力,成本高,对人员专业素质要求高,但是准确性相对更好。随着技术手段的不断革新,一些标注工具和方法的应用使得人机结合的半自动标注得以流行。然而,研究者从未停止过对完全机器标注的追求,并且相关技术方法在研究和应用中不断得到新的发展。具体到红色档案语料库的标注问题,要综合考虑到红色档案数据的规模、质量、成本以及技术应用等因素的影响,采用合适的标注策略,通过交叉标注、利用成熟词典等方式,不断提高标注的准确性和应用效率[6-7] 。

  3.4 红色档案数据存储、更新与维护

  红色档案数据的存储、更新和维护主要通过设计语料库管理程序、开发相应的语料库应用软件来实现。这方面的技术相对较为成熟,有较为体系化的解决方案。值得注意的是,存储设备和程序开发要始终考虑基本安全要求。

  4  结语

  红色档案的价值不仅体现在记录历史的客观性和真实性上,而且在于价值观中的独其对于增强国民的爱国主义情感、传播社会主义核心特作用,以及在教育和研究领域的广泛应用。随着时间的推移,红色档案的现实意义和应用价值随之增加,在新的历史条件下如何进一步对其进行挖掘和利用,对于传承和弘扬红色文化、促进历史与现实的对话具有重要意义。红色档案语料库的构建并不仅仅是技术层面上的问题;随着技术的不断发展成熟,语料库构建的流程和方法逐步成熟和标准化,在构建过程中兼顾红色档案的特殊性就能搭建起语料库的基本框架。红色档案语料库构建的其他难点主要体现在以下几个方面:一是管理协同的问题,需要资源主体之间构建协调机制;馆藏机构的构建意愿和运维能力对红色档案语料库建设也是一个挑战,从目前的管理情境来看,以政府为主导项目驱动的模式应成为主流。二是数据资源建设实践的问题。红色档案卷帙浩繁,数据化成本高,要结合重大战略和中心工作确定红色档案数据化的优先级,集中力量开发一批有重大示范意义的语料资源,起到典型示范带动作用。三是研究能力的问题。语料库的构建需要大量的人力、物力、财力,对语料库的应用和研究能够产生什么样的成果还有待进一步评估。语料库建设的技术方法不断迭代更新,需要档案部门等相关机构不断更新理念,推动现代信息技术在档案建设实践中的深度应用,提高档案资源的价值,不断扩大档案赋能的领域和范围。

  参考文献

  [1] 曹欣恺 , 周林兴 . 数字创意产业视角下红色档案文化价值跃升路径[J]. 山西档案 ,2023(4):62-71.

  [2] 孙大东 , 张怡涵 . 基于事理图谱的红色档案资源开发利用[J]. 档案学研究 ,2023(5):73-80.

  [3] 俞露 . 数字人文视域下陕甘宁边区政府文件知识组织与可视化研究[D]. 长春 : 吉林大学 ,2022.

  [4] 黄水清 , 王东波 . 国内语料库研究综述[J]. 信息资源管理学报 ,2021(3):4-17,87.

  [5] 李军辉 , 朱巧明 , 李培峰 . 基于邮件过滤的中文邮件语料库构建 [J]. 计算机应用与软件 ,2007(8):56-58,121.

  [6] 王静 , 曹勤民 , 张宝爱 .“服务育人”视角下高校学生档案功能开发途径[J]. 兰台世界 ,2023(9):115-117.

  [7] 张镇升 . 综合档案馆红色档案展览特点、困境及出路[J]. 山西档案 ,2022(4):76-80.

  【作者简介】娄丽娜(1985—),女,汉族,河南郑州人,河南牧业经济学院马克思主义学院副教授,硕士,研究方向:思想政治教育理论与实践。