非遗档案实体抽取方法研究

发布时间:2024-11-01 15:06:34被阅览数:55 次信息来源:《山西档案》

  作者:邵京京

  摘要:非物质文化遗产的数字化保护是新时代文化传承的重要使命。其中,高效准确的实体抽取是非遗资源语义组织和智能应用的关键。针对现有非遗实体抽取研究存在的方法单一、领域适应性不足等问题,在系统梳理实体抽取技术的基础上,立足知识库构建需求,提出一种融合目标驱动、数据驱动、知识驱动的非遗实体抽取方法选择框架。该框架从类型定义、特点分析、路径选择等角度,为非遗实体抽取提供理论指引。该框架的提出既丰富了非遗数字人文的理论方法,也为提升非遗实体抽取的智能化水平提供了新思路,旨在推动非遗资源在数字化时代的深度开发与智慧利用。

  关键词:非物质文化遗产;档案;实体抽取;深度学习

  非物质文化遗产是中华优秀传统文化的重要组成部分,对于增强文化自信、建设社会主义文化强国具有重要意义。《关于推进实施国家文化数字化战略的意见》的印发,更加强调构建中华文化数据库,统筹推进国家文化大数据体系,引领文化产业数字化建设。随着数字技术的发展和国家文化战略的推进,海量非遗档案资源得以数字化保存,为非遗传承与弘扬提供了新的途径[1]。然而,如何对海量非遗档案进行有效管理和深度语义挖掘,实现非遗知识的结构化表示,是当前待解决的关键问题。实体抽取作为自然语言处理领域的核心任务之一,对于非遗档案语义化和知识图谱构建有着强有力的支撑作用。目前,以深度学习为主的实体抽取方法在非遗、古籍、地方志等数字人文领域得到广泛应用,主要将实体抽取视为序列标注任务,采用条件随机场、长短期记忆网络等深度学习模型,为非遗知识组织和语义化应用奠定了基础[2]。然而首先,就总体而言,面向非遗领域的实体抽取仍处于起步探索阶段,原因在于对实体抽取的系统性研究较为匮乏;其次,大多采用序列标注思路而忽视了非遗实体类别信息的语义特征,在方法选择方面有待进一步突破;最后,当前研究缺乏领域适配性分析,针对非遗数据特点优化实体抽取方法的研究有待进一步深化。针对上述问题,在系统梳理实体抽取技术发展脉络的同时,探讨不同类型实体抽取方法的原理和适用条件,进而提出面向非遗数据特点的实体抽取模型优化策略,为其提供融合非遗语义信息的实体抽取新思路。本研究的开展有望为丰富非遗数字人文的理论方法、推动非遗实体抽取走向规范化、智能化提供有益借鉴。

  1  相关概念界定与理论基础

  1.1  非遗档案的内涵与特点

  非遗档案是以非物质文化遗产为对象,通过多种载体和手段,对非遗项目开展系统性的收集、整理、保管和利用活动而形成的特殊档案。作为一种重要的非遗资源类型,非遗档案承载了丰富的民族传统文化信息,是传承和弘扬非遗的宝贵财富。通过梳理相关文献总结出非遗档案的几个鲜明特点:一是档案内容的综合性,涵盖了非遗项目的历史渊源、价值内涵、传承谱系、实践样态等诸多方面;二是载体的多样性,既包括文本、图像、实物等传统档案形式,也包括音频、视频、3D扫描形成的数字档案等形式;三是语言的生动性,多数非遗档案由口述历史档案资源构成,蕴含大量口语化表述和方言俚语,饱含深厚的乡土气息。正是由于这些特点的加持,为非遗档案的数字化整理与深度开发应用提供了独特视角,也对相关技术方法提出了新的要求。

  1.2  实体抽取的原理与方法

  实体抽取,又称实体识别,是自然语言处理领域的经典核心任务之一,旨在从半结构化或非结构化文本中识别出指定类别的实体并予以结构化表示,为进一步的信息组织和语义关联奠定基础。实体抽取技术经历了从基于模式匹配到机器学习再到深度学习的发展历程。早期实体抽取主要采用基于规则和词典的模式匹配方法,但存在泛化能力有限、构建成本高昂等缺点。之后,以条件随机场、支持向量机为代表的传统机器学习方法逐渐成为实体抽取的主流,但其存在特征工程复杂、数据依赖严重等局限性,难以广泛应用。近年来,随着以循环神经网络、卷积神经网络、注意力机制为代表的深度学习技术的崛起,实体抽取进入了全新的智能化时代。基于深度学习的实体抽取方法能够自动学习文本的深层语义特征,大幅提升实体边界和类别的判别精度,同时实现端到端的抽取过程,极大地提高了抽取效率,已成为当前实体抽取的主流发展方向[3]。

  2  非遗档案实体抽取的主要方法分析

  2.1  基于规则和词典的实体抽取方法

  基于规则和词典的实体抽取方法是传统方法,其核心思路是借助专家知识预定义一系列匹配模式,通过模式匹配从文本中识别实体。这类方法的关键是构建高质量的规则库和词典资源,需要投入大量的人力物力。针对非遗领域,学者曾尝试基于本体构建非遗领域词表,并形成特定的语法规则,用于非遗命名实体识别[4]。但受限于非遗语料的复杂多变性,这种方法很难穷尽所有的规则,且规则迁移能力较弱,已逐渐被机器学习方法所取代。然而,在小规模或初期的实体抽取任务中,该方法仍具有一定应用价值。

  2.2  基于机器学习的实体抽取方法

  基于机器学习的实体抽取方法主要分为有监督、半监督、无监督、面向开放领域和远程监督等类型。在非遗实体抽取领域,已有学者运用条件随机场、支持向量机等有监督机器学习模型,通过人工标注训练数据,构建序列标注类型的实体抽取器。如有学者基于条件随机场,对非遗文本中的人物、时间、地点等命名实体进行抽取,识别的精确度比较可观。此外,还有学者通过半监督学习中的bootstrapping方法,利用少量种子实例迭代学习,实现非遗文本的术语抽取,在小规模非遗语料上取得了不错的效果[5]。但总体而言,传统机器学习方法存在特征表示能力不足、语义建模能力有限、数据依赖严重等问题,在非遗实体抽取领域的应用还比较局限。

  2.3  基于深度学习的实体抽取方法

  深度学习方法能够充分挖掘文本数据中词汇和语义层面的深层特征,极大地提升实体抽取的性能,是目前自然语言处理的研究重点。已有学者将循环神经网络、卷积神经网络、注意力机制等方法引入非遗实体抽取。例如,有学者采用BiLSTM-CRF模型对非遗元数据进行实体识别,FI值达到87.3%。还有学者提出将非遗知识融入预训练语言模型,增强语义编码能力,在大规模非遗语料库上显著提升了机构名、人名等实体的抽取效果。基于深度学习的方法在非遗实体抽取中的效果相对显著,但如何根据非遗语言资源的特点进一步优化模型,仍需进一步探索。此外,采用端到端的实体关系联合抽取模型构建,协同识别非遗文本中的实体及其语义关系,成为近年来的研究热点。

  2.4  基于阅读理解的实体抽取方法

  机器阅读理解是自然语言处理的前沿方向,旨在让计算机像人类一样可以阅读文本并回答问题。将阅读理解方法应用于实体抽取任务,可为非遗实体抽取提供新思路。这一方法的核心是将实体类别信息转化为自然问句,通过大规模预训练的阅读理解模型抽取文本中的目标实体作为问题答案。这种方法的优势在于能够充分利用实体类型的语义知识,实现语义驱动的实体抽取[2]。纵观相关研究发现,已有学者提出基于BERT的非遗实体抽取方法,通过构建实体类型问题,实现对人物、时间、地点等核心实体的抽取,取得了优于传统序列标注方法的效果,这为后续融合非遗知识的实体抽取研究提供了启示。

  3  非遗实体抽取方法选择框架构建

  3.1  非遗实体类型与抽取目标界定

  非遗实体抽取的首要问题是明确抽取对象和目标。通过对国家级、省级非遗代表性项目的申报文本进行分析,本文将非遗实体归纳为项目名称、人物、时间、地点、组织机构、作品名称等6大类,涵盖了非遗活动要素的主要方面[5]。在目标定位上,非遗实体抽取的核心诉求是最大限度地提取以上类型实体,为非遗知识库构建、语义关联、可视化应用等后续任务提供高质量的数据支撑。这就要求非遗实体抽取方法在类别全面覆盖的同时,兼顾抽取的精确性和可解释性。

  3.2  非遗档案资源特点分析

  非遗档案在载体形式、语言风格、知识密度等方面呈现出独特性,深刻影响着实体抽取方法的选择。就载体形式而言,非遗档案多以文本、图像等非结构化形式存在,对自然语言理解能力提出了更高的要求。语言风格方面,非遗档案的文本信息通常包含常见的方言俚语、文言词汇、修辞性表述等特色表达方式,对实体边界判定造成一定的干扰,从而影响抽取效果。知识密度方面,非遗档案中往往存在特定实体的密集共现,且实体间语义关联紧密,单纯局部特征难以全面刻画,需要宏观语义建模和实体关系联合抽取。由此可见,面向非遗档案的实体抽取函需综合评估语料特点,因地制宜地选择技术路线。

  3.3  融合非遗特点的实体抽取方法选择框架

  鉴于上述分析,本文提出一种面向非遗实体抽取的方法选择框架。该框架以知识库构建为目标导向,以深度学习为技术支撑,以非遗语义信息为显性指引,形成了“目标驱动、数据驱动、知识驱动”的融合抽取范式。首先,在目标驱动层面,以支撑非遗知识库构建为根本诉求,综合权衡实体类型的全面性、可解释性、关键性,形成抽取目标的宏观框定。其次,在数据驱动层面,立足非遗资源的语言学特点,优选语义建模能力强、鲁棒性好、可解释性强的深度学习模型,并引入主动学习、少样本学习等机制应对标注数据稀缺的问题。最后,在知识驱动层面,充分利用非遗语料中蕴含的实体先验知识和语义关系知识,通过构建非遗实体词典、本体等资源,对深度模型赋能,实现语义增强的实体抽取。总体来看,该框架的核心思想是面向目标、融合数据、借力知识,努力平衡全面性、准确性和可解释性,为非遗实体抽取提供了新思路。

  4  结语

  本文以非遗实体抽取为研究对象,在系统梳理实体抽取技术的基础上,立足非遗资源的特点和应用需求,构建了一种融合目标驱动、数据驱动和知识驱动的非遗实体抽取方法选择框架。本文在理论层面上创新性地提出融合目标、数据、知识的非遗实体抽取范式,丰富了非遗数字人文领域的理论体系,能够因地制宜地平衡实体抽取的全面性、准确性和可解释性,为后续非遗实体抽取和知识库构建研究提供了方法论指导。同样地,本文在实践方面有助于提升非遗资源的语义组织和智能开发水平,为非遗数字博物馆、虚拟展示等应用提供高质量的结构化数据支撑,进而推动非遗的智慧传承和创新转化。随着大数据、人工智能等现代科技与人文研究的日益融合,非遗数字化正在从资源数字化向知识智能化发展,作为其中的关键环节,非遗实体抽取的相关研究任重道远。本文以期为非遗实体抽取乃至整个数字人文领域提供新的思路和借鉴,推动人类优秀传统文化的智能化传承与创新。

  参考文献

  [1]加小双,李宜芳,谭悦.数字记忆视域下非物质文化遗产的保护与传承研究[J].山西档案,2019(5):66-71

  [2]范涛,王昊,张卫,等.基于机器阅读理解的非遗文本实体抽取研究[J].数据分析与知识发现,2022(12):70-79.

  [3]鄂海红,张文静,肖思琪,等:深度学习实体关系抽取研究综述[J].软件学报,2019(6):1793-1818.

  [4]赵雪芹,路鑫雯,李天娥,等.领域知识图谱在非遗档案资源知识组织中的应用探索[J].档案学通讯,2021(3):55-62.

  [5]胡慧慧,赵雪芹.基于本体的桥梁文化遗产档案知识图谱构建研究[J].山西档案,2023(6):42-57.

  【作者简介】邵京京(1986),女,汉族,河南开封人,河南工程学院国际教育学院讲师,硕士,研究方向:文学与文化研究、中国文化国际传播。