数字人文视域下古代诗人时空数据知识挖掘

发布时间:2025-02-06 08:15:49被阅览数:140 次信息来源:《山西档案》

  作者:孟繁爽 周树斌 李永卉 黄燕梅

  摘要:运用GIS技术分析诗人时空分布特征并展开知识挖掘,在有效践行构建中华文化共同体的基础上,可为学者研究对应历史时期的地域差异、文化交流和社会变革提供借鉴和参考。以古代诗人为研究对象,以其时空数据为研究内容,将传统人文研究思维与数字人文研究方法有机融合,从五个方面构建了古代诗人时空数据关联与挖掘框架,随后以唐宋时期诗人群体为实证案例,验证了该框架的合理性。在前人研究的基础上,细化了时空数据知识表示粒度,提升了时空数据展示的直观性与可解释性,为人文学者研究时空数据、朝代发展情况提供具有普适性、可迁移性的研究方式与研究思路。

  关键词:时空数据;知识挖掘;数字人文;古代诗人;唐朝诗人;宋朝诗人;苏轼

  中共中央办公厅、国务院办公厅相继印发的《关于推进实施国家文化数字化战略的意见》[1]和《“十四五”文化发展规划》[2]明确指出,要基于已有的文化遗产资源挖掘具有历史传承价值的元素、符号、标识,以丰富中华民族文化基因的当代表达。中国古代诗人不仅在文学创作、文化传播、社会记忆传承方面承担着重要角色,而且他们的仕宦生涯、人际交往和生平轨迹等时空数据信息,也是后人窥视他们所处时代的社会变迁、经济发展、风土人情等信息的重要显性文化遗产资源。长期以来,古代文学研究者主要关注的是诗作本身,聚焦解构诗歌的意象、内涵、风格、情绪等内容,较少关注诗人的生平和所处的时代大环境;历史学者则主要从诗人在历史时期的社会活动入手,关注作为“人”的诗人的仕宦经历、政治活动以及社会关系等;而哲学史和思想史的研究者则更多地从“形而上”层面剖析诗人的精神世界。因此,在学科交叉融合的当下,如何跳出单一学科的固有思维,拓宽传统人文研究视野,借助现代信息技术优化资源的时空数据知识挖掘模式是学界研究的重要议题。

  近年来,将地理信息技术、知识图谱技术引入人文社科领域,融合运用计量、比较、可视化等量化分析方法,实现时空数据的再提取、再挖掘,已成为数字人文的重要研究范式之一[3],为跨学科研究的思维碰撞、理论优化、技术创新提供了新的契机。时空数据是兼具时间、空间特征的多维数据形态,在记录事物时空变化的同时,能够揭示研究对象的历史时空发展态势[4]。随着时空数据挖掘研究的深入,如何针对不同研究领域探索具有普适化、规范化、流程化的时空数据关联模式至关重要,这既可厘清不同历史时期时空数据的多元表述,又可实现时空数据规范关联、时空演变规律量化揭示、时空数据内涵精细挖掘。目前,学界在诗人时空数据的知识挖掘研究方面已取得一定进展,如将时间、空间信息简单移植到文献循证、知识重组、数字叙事等理论研究中;针对特定研究对象抽取时空数据展开人物时空轨迹、心理轨迹、分布特征挖掘的实证研究。但多数研究仍停留在时空数据的简单提取与应用层面,或受限于特定的研究对象及适用领域,无法适配现阶段信息挖掘粒度趋细、跨学科融合研究层次趋专、普适性信息挖掘模式需求趋高的数字人文研究现实需求。

  鉴于此,本文以中国古代诗人为研究对象,融合传统人文理论与数字人文研究方法,从资源整理、知识表示、知识关联、交互展示、知识挖掘五个层次构建古代诗人时空数据关联与挖掘研究框架,并以唐、宋两朝诗人为实证案例,验证了该框架的合理性与可行性,为相似领域的时空数据挖掘研究提供思路借鉴与研究视角参考。

  1  相关研究

  “时空数据”一词常见于地理学研究领域,主要应用于地学分析、智慧交通、国防军事、宇宙探索等诸多现实场景。随着研究的深入,衍生出了时空数据模型[5]、时空数据存储模型[4]、时空大数据[6]等丰富的学科理论与新兴概念。传统人文领域的时空数据大多划分为“时”“空”两类,“时”即时间,“空”即空间。早期针对古代诗人的时空数据探索主要停留在定性阶段,通过对史料、石刻、图像等多元信息的分析,结合人文学者的知识储备与积累得出结论或推断。使用该方式得出的研究结论可信度不置可否,但每个新的研究结论均需要学者海量的数据搜集与人工信息挖掘,耗费大量的人力、物力、时间成本。因此,随着信息技术的普及与应用,部分专业学者开始探索时空数据的量化分析、可视化呈现与自动化知识挖掘。

  在平台开发方面,我国在古代人物传记、诗词文献、口述历史、文化遗产领域均建立了时空数据的开发与展示平台。例如,中国历代人物传记资料库(以下简称CBDB)[7]、唐诗别苑[8]、唐宋文学编年地图[9]等均是以历史人物为主题,融合GIS技术、社会网络、知识图谱等技术实现多维信息关联的地理信息可视化、社会网络知识图谱等的典型平台。在科研成果产出方面,随着存储结构化信息的图数据库的普及与发展,部分研究将时间、空间作为核心基础概念,简单划分子类后引入知识组织研究,并进行知识抽取与知识存储。牛力等[10]将时间、空间作为一级核心概念构建了档案文化遗产元数据设计框架。高劲松等[11]对时空数据进行二级类目划分,将时间细化为时间点和时间段两类,并将空间细化为地区、地点、景观三类。在此基础上,部分学者选择针对某一时期的古代诗人群体,通过量化分析展开时空数据的知识挖掘研究。徐永明等[12]以元朝诗人为研究对象,从宏观角度对比了《全元诗》和《全元文》在描述诗人群体空间分布方面的差异。宋雪雁等[13-14]分别对唐朝贬谪官员、送别诗诗人的时空轨迹进行了数据收集与可视化分析,并挖掘了背后的隐含知识。邓君等[15-16]从人地和人际两个维度出发,绘制了明、清两代进士的空间分布图和社会关系网络图,采用“遥读”形式映射了进士所在朝代背后的历史现象。高劲松、张强等[17-18]将知识图谱、情感分析、时空轨迹进行了三重融合,针对李白和辛弃疾的相关信息进行了知识关联和知识重构。

  综上所述,目前针对数字人文视域下的诗人时空维度的数据挖掘与知识发现已有较为丰富的科研成果,但仍存在两点不足:一是针对时空数据的层次划分较为模糊,缺少对统一、规范的时空数据关联范式的探讨;二是现有针对古代诗人的时空挖掘研究大多仅适用于特定的时间范围或特定的人物群体,仍停留在以案例实践为主的具体研究层面,其挖掘框架的适用性和可迁移性较低。本研究集传统人文理论和数字人文方法于一体,构建的古代诗人时空数据关联与挖掘研究框架既可保留社会人文研究的专业性,又可实现时空数据的量化统计与多维知识挖掘,在拓展诗人传统时空分析的广度和深度的同时,为对应领域专家学者提供新的时空分布研究视角。

  2  古代诗人时空数据关联与挖掘框架构建

  为更加系统、全面地开展古代诗人数据的知识挖掘工作,本文立足于传统人文领域的研究问题与研究思维,参考数字人文相关研究方法,以古代诗人为研究对象,构建了古代诗人时空数据关联与挖掘框架,如图1所示。

1.jpg

图1  古代诗人时空数据关联与挖掘框架

  该框架在结构层次上可划分为资源整理层、知识表示层、知识关联层、交互展示层与知识挖掘层,这五个层次分别对应数字人文领域在知识组织方面的已有流程;在内容设置上,该框架聚焦于古代诗人资源中的时空数据,并且在技术、方法、视角、数据、学科等方面实现了优劣互补,既保留了人文学科的传统思维方式,又融合了信息技术的新兴分析方式。

  2.1 资源整理层

  数据的可信性、规范性、完整性是保障数据挖掘结果可信赖、可溯源、可解释的前提与基础,故本文选取纸质文献和数字资源作为知识挖掘的原始素材。针对纸质资源,选取专业性强、相关度高的记载古代诗人的史料资源、人物传记及传世诗词,通过书籍扫描将纸质文献转换成PDF电子格式,然后运用OCR识别、人工校对、数据清洗等手段得到有效文本集;针对数字资源,选取专业数据平台和可信赖的PGC(专业生成内容)网络资源,如中国历代人物传记库、中国基本古籍库等,运用Python爬虫技术抓取网页中的古代诗人描述文本,并整理为有效文本集。

  2.2 知识表示层

  在参考时空数据理论的前提下,首先,将空间特性、时间特性、属性特性与空间类、时间类、人物类数据一一对应,以确保时空数据抽取的完整性与专业性。其次,依照古代诗人时空数据的层级划分,将初步抽取的时空数据进行规范标注,为后续的数据分类与数据关联奠定基础。再次,对已提取的数据展开数据消歧与数据补全工作。数据补全和数据消歧的原则如下:优先选取生卒年份信息齐全的诗人群体(包含以皇帝年号命名的生卒年份)。对于生卒年份信息不全或存在疑问的情况,以有记载的年份信息为标准划定诗人所属的朝代和具体时期,忽略生卒年份不详的诗人群体。同时,通过运用多种检索途径获取古代籍贯对应的现代地点,实现“古代地点”“当今地点”“经纬度信息”的一一对应。

  2.3 知识关联层

  为确保知识关联的可信度,需要解析已完成抽取的时空数据中的复杂语义关联,进而有序串联数据内容,从而为相关人员提供真实有效的时空数据体系。考虑到仅以时间顺序串联地点、人物数据可能会导致样本利用不充分、数据关联不完整等问题,本文在引入语义关系的同时,还借助现代信息技术,如大语言模型、深度学习算法等,根据上下文的语义关联无时间类地点数据,尽量保证时空数据关联的可解释性和完整性。

  2.4 交互展示层

  交互展示层是将前文已经规范关联、融合的时空数据导入数据分析软件或地理分析系统等工具中,以实现古代诗人时空数据的关联发布与可视化展示。其中,时空展示可利用知识图谱、GIS、SPSS等实现时空数据的量化分析与视觉展示,优化传统人文研究的文字、表格展示方式,使研究成果更加直观和易于理解。知识查询与知识溯源功能可通过数据关联链、检索表达式等手段快速定位并追溯研究目标。该方式推动了数据分析从静态内容展示向动态交互体验的转变,提供的丰富视觉效果增强了用户的参与感,也为深入理解历史背景下的文化现象提供了新的途径。

  2.5 知识挖掘层

  知识挖掘层是基于已有时空数据,结合人文学科的现实研究问题,具体展示数据分析与信息挖掘的过程。依据本文关联的时空数据,可实现基于古代人物的时空数据挖掘、基于时间的时空数据挖掘以及基于空间的时空数据挖掘。一方面,可实现宏观研究与微观分析的融合。既可探讨某一朝代或某一历史时期的宏观地理分布、时间分布、人员分布,又可深入挖掘某一诗人的时空轨迹。另一方面,可实现动态研究与静态研究的融合。从纵向时间维度和横向空间维度挖掘诗人跨朝代籍贯空间分布演进规律、生平轨迹规律等,以打破单一静态数据分析的研究桎梏。

  3  古代诗人时空数据关联与挖掘语义描述

  3.1 古代诗人时空数据要素

  时空数据模型是地理学领域提出的一种理论模型,它根据时空数据的特性抽象为“When”“What”“Place”三个要素。其中,“When”代表对象存在或发生的时间特性;“What”代表时空对象的属性,即对象属于什么类型;“Place”则代表对象存在或发生的地理位置[19]。历史、文学领域对时空数据的研究由来已久,但早期主要停留在定性的史实分析和文献考证层面。为了适应现代数据分析与信息挖掘的研究需要,提升时空数据抽取与关联的规范性,本文将时空数据模型的三要素引入古代诗人时空研究中,并具体划分为“When”“Person”“Place”三个要素。其中,“When”代表史料记载的古代诗人所历经的时间信息,即时间类数据,包含时间点和时间段两类;“Person”代表古代诗人时空对象的属性,明确古代诗人与时空数据的对应关系,即人物类数据;“Place”则代表古代诗人生平所涉及的地理位置信息,即空间类数据,包含具体地点和抽象地点两类。

  3.2 古代诗人时空数据层级划分

  厘清古代诗人时空数据的层次结构,能够为后续的知识挖掘提供精准、完整的规范数据。这一过程不仅是对古代文献资料的系统整理与分析,更是对传统人文研究领域中“格物致知”学术追求的一种体现。故本节从逻辑层次、语义层次、数据属性、数据消歧四个角度来细化时空数据的层级结构,如图2所示。

2.jpg

图2 古代诗人时空数据知识表示逻辑体系

  在逻辑层次与数据属性方面,总体上参考了已有的领域本体的划分层级,并根据古代诗人的时空资源特性进行了类别细分。

  针对人物类数据,按照作品类别将人物划分为诗人、词人等;同时,根据诗风特点将人物划分为豪放派、边塞派、婉约派等,以便于后续挖掘不同类别诗人的时空分布特征。

  针对空间类数据,参考高劲松等[11]提出的山水志史料资源本体,并按照地点的精确性将其划分为抽象地点和具体地点。抽象地点包括历史古迹区域、古代特定地区、现代所属地区,具体地点包括特殊地点、古代地点、现代地点。历史古迹区域是指原始素材中所涉范围较大、精确度较低的自然、人文古迹地区(如长江、庐山等);古代特定地区是指古代政府规定或社会约定俗成的地理区域(如江南地区、京畿道等);特殊地点是指原始素材中所涉精确度较高的地点(如黄鹤楼、晴川阁等);古代地点是指古代行政区划单位(如京兆府、开封府等);现代地点与现代所属地区是将古代地点或地区映射到现代地图上的地理位置信息。

  针对时间类数据,按照时间的精确程度将其划分为抽象时间与具体时间。抽象时间包括特定时间范围、朝代时间范围,具体时间包括年号纪年、公元纪年。特定时间范围是指将重大历史事件作为时间信息(如安史之乱时期、靖康之变时期);朝代时间范围是指以朝代作为时间信息(如隋朝、汉朝等);年号纪年和公元纪年分别指以皇帝年号或公元时间作为时间信息(如乾隆二年,1127年)。

  在语义层次方面,为每个时空数据附加了语义内涵,为后续知识挖掘结果的解释提供了事实依据。具体而言,空间类数据按照经历事件的性质被划分为生地、卒地、出发地、目的地等六类;时间类数据则被划分为生时、卒时等五类。

  在数据消歧方面,考虑到时空数据内容繁杂、种类多样的特点,在参考高劲松等[3]提出的书画著录实体匹配流程的基础上,引入了专业数据库来推进时空数据的消歧与对齐工作。

  3.3 古代诗人时空数据关联模式

  为确保知识关联的可靠性,需要解析已抽取数据中的复杂语义关联,进而有序串联起时空数据,为相关人员提供真实有效的时空轨迹链。考虑到古代诗人时空数据通常基于事件进行串联,故本节借鉴了宋宁远等[20]和黎安润泽等[21]对事件关系的划分标准,结合时空数据的实际特征,从时序和语义两个角度出发分析其关联关系,如表1所示。

表1 古代诗人时空数据关联模式定义

3.jpg

  由表1可知,将时序关系分为顺序、全同、包含、相交四种类型。前两种类型主要适用于有具体时间记载的时空数据关联。例如,诗人A在1271年所处的地点一定早于1288年所处的地点,此为顺序关系。乾隆元年和1736年所处时间相同,则诗人B在这一时间节点所处地点也应相同,此为全同关系。后两种类型则适用于有抽象时间记载的数据关联。例如,诗人C在1270年任职于地点1,在南宋中后期任职于地点2,时间上存在包含关系,该时间段内所涉及地点的先后顺序需结合上下文语义判定。又如,据可靠文献记载,诗人D在唐代宗在位时期任职于地点3,而在中唐时期任职于地点4,这两个时间段部分重合,具体任职地点的先后顺序需要进一步根据上下文语义确定。此外,将语义关系分为因果、顺承两种。因果关系是指诗人E出现在地点6是由于受到曾经处于地点5时所经历的事件影响,如原任职地与被贬谪地间就存在因果关系。顺承关系是指诗人为达到某一目标时,连续发生的事件所涉及的时空数据之间的关联。例如,诗人F到地点8游历时,曾途经地点7并留下史料记载。

  4  实证研究

  4.1 对象选取与收集

  唐宋时期是中国古代历史上的一个重要转折点,这一时期国家开放包容、政治繁荣、文化兴盛,为诗词创作提供了肥沃的土壤。唐宋诗词的繁荣不仅体现在数量众多、题材广泛上,更在于深刻反映了当时的社会变迁、文化传承与思想潮流。研究这一时期的诗人群体,不仅可以从多维度揭示诗词创作的时空分布特征,还能深入探讨政治环境变迁、经济重心南移等重大历史事件对文学发展产生的影响。《全唐诗》和《全宋诗》作为系统收录唐宋时期诗歌的重要文献,为研究提供了宝贵的史料资源。结合CBDB等平台的高质量网络资源,可以进一步丰富和细化研究数据。通过时空数据分析方法,不仅可以构建诗人行踪与交往网络,还能揭示不同地域文化之间的互动与融合,为理解唐宋文学的多元化发展提供新的视角。因此,本研究选取唐、宋时期的诗人群体为实证案例,以《全唐诗》《全宋诗》中收录的诗人为研究范围,以CBDB等PGC网络资源为数据补充展开研究。

  4.2 数据抽取与关联

  经过对古代诗人原始素材的采集,形成了本研究所需的非结构化数据。为便于后续知识关联与知识挖掘的研究,需要采用“人工+技术”的手段将这些非结构化数据转化为结构化数据,其流程如图3所示。

4.JPG

图3 唐宋诗人时空数据抽取与关联流程

  通义千问、文心一言、ChatGPT4等大语言模型因其操作方便、准确度高已被广泛应用于知识抽取研究中[22]。因此,针对海量的唐宋诗人及诗词资源,依据古代诗人时空数据逻辑层次构建Prompt提示语,以实现三类数据的精确提取。随后,对照古代诗人时空数据的语义层次,细致划分了时空数据信息,如依据上下文语义信息将《黄鹤楼送孟浩然之广陵》中所涉及的黄鹤楼和扬州分别细化为送别地和目的地,便于后续空间数据的有向串联。由于经过“大语言模型+人工标注”知识抽取流程后的结果可能存在歧义、共指等现象,因此有必要进行知识对齐、筛选、融合等操作,以获得规范性强、准确度高的时空数据。故在前期抽取的基础上需结合前文中提出的古代诗人时空数据进行消歧、规范处理,以实现人物数据对齐、空间数据对齐、时间数据对齐。例如,通过前文语义分析得到广陵和扬州均为送别终点,但通过查询《中国古今地名对照表》后发现,古时广陵即为今扬州,这在一定程度上减少了无关数据的干扰,保障了数据的真实性、数据关联的唯一性。最后,依据古代诗人时空数据关联模式,将时空数据串联,并在传统时空数据的基础上注入语义信息,为后续知识挖掘奠定基础。

  4.3 知识展示与挖掘

  4.3.1 基于人物的时空数据知识挖掘

  人是历史发展的主体,个人的社会行为、生平阅历与所处朝代的生产关系、社会环境相互影响、相互作用。运用GIS技术,以人物的时空数据为切入点进行知识挖掘,既可动态、直观地了解人物生平轨迹,又可窥见所处朝代生产力与生产关系的宏观发展态势。通过将按照时间顺序关联好的诗人地点关联数据整合为CSV格式导入ArcGISpro中,实现轨迹及其对应语义关系的可视化展示。其中,以苏轼为核心人物的时空轨迹如图4所示。

5.JPG

图4 苏轼生平轨迹路线图

  从苏轼的生平活动范围来看,他的一生所到之处西起眉山,东至苏杭,北至定州,南至陵水,历经多任皇帝,仕途起伏跌宕,辗转于中国大部分地区,但他又始终保持着洒脱豁达、自信乐观的为官、为民、为人的处世态度。林语堂曾评价他“世间不能无一,难能有二”[23],其活动轨迹、所历时期、所经事件具有极强的代表性,也在一定程度上论证了苏轼乐天派的性格特征。相较于唐朝诗人,以苏轼为代表的宋朝诗人活动范围进一步向南扩展,至广南西路、广南东路(今广西、广东、海南)等地。诗人活动的离群点一般与政治贬黜、地理环境、个人原因等有关,其中政治原因占据主导地位[24]。苏轼生平轨迹中最突出的离群点是惠州和儋州,这两处亦是苏轼生平遭贬的重要地点。苏轼曾写到:“岭南天气卑湿,地气蒸溽,而海南为甚。”[24]由王安石变法引发的新旧党争中,几百个新政受害者中只有他被流放至海南岛,可以推测当年朝堂政局波谲云诡、洛蜀朔党争极其激烈[25],这愈发显得苏轼正直的政治品格、敢于直言的文人风骨、乐观开朗的处世态度难能可贵。

  4.3.2 基于时间的时空数据知识挖掘

  人对生存活动范围的选择在一定程度上受到社会环境的制约。同一朝代的不同时期以及重大事件节点,都会对人群聚集、人口迁移等产生影响。为探究具体的人口迁徙与分布规律,需对具体朝代的历史分期进行科学合理的划分。《全唐诗》收录诗歌的时间范围是从隋末唐初到唐末五代,其中唐末五代(907—960年)单成一类。考虑到该时期的历史复杂性和数据整体展示效果,本研究剔除了唐末五代的数据,按照传统“四唐说”的划分标准,将唐朝划分为初唐(618—712年)、盛唐(712—766年)、中唐(766—827年)和晚唐(827—907年)四个时期,并以此为依据绘制唐朝诗人籍贯空间分布热力图,如图5所示。

6.JPG

图5 初唐、盛唐、中唐、晚唐诗人籍贯空间分布

  在初唐和盛唐时期,诗人主要集中在京畿道和都畿道,以京兆府和河南府为主,这主要是因为初唐时期长安、洛阳两京并重[14]。从初唐至盛唐,陇右道与关内道附近集聚度逐渐凸显(代表地点为陇西成纪),这与唐朝代表性文化群体——关陇集团[27]和丝绸之路的繁盛[28]密切相关。仅骆宾王诗词中便频繁提到了皋兰、陇坂、天山、玉门关、碎叶等地名[29],这在一定程度上验证了唐朝时期边塞诗和边塞文化的繁荣发展。进入中唐时期,诗人的地理分布进一步扩散,集聚地覆盖范围向西向南扩展,北至河北道、南至岭南道、西至吐蕃东部(与陇右道接壤处)、东至江南东道。受到安史之乱的影响,人口逐步向南迁移。据《旧唐书》记载,安史之乱后,唐玄宗李隆基等人从长安逃往四川成都一带[30],加之剑南道独特的自然环境历来受到文人墨客的青睐,因此在中唐、晚唐时期,剑南道北部的诗人集聚程度不断增强。

  4.3.3 基于空间的时空数据知识挖掘

  由唐至宋,中国版图发生了较大的变化。为挖掘这一时期诗人的宏观空间动态分布与迁移特征,按照朝代演进过程,绘制了唐朝、宋朝诗人籍贯空间分布热力图,如图6所示。

7.JPG

图6 唐宋诗人籍贯空间分布

  从纵向空间分布来看,诗人籍贯的空间分布重心整体呈现出“西北—东南”的迁移走向,在一定程度上与经济中心、政治中心的转移方向一致。从唐朝到宋朝,诗人籍贯的集聚重心逐步从以京畿道、都畿道为主的黄河中下游地区转向巴蜀地区和长江中下游的部分地区。

  从横向空间分布来看,唐宋时期诗人的籍贯主要集中在四大区域,即巴蜀地区、江浙地区、江西福建地区以及黄河中下游地区。唐朝时期诗人籍贯虽在东南沿海部分区域形成小范围集聚,但集聚重心仍在京畿道、都畿道、河东道及河北道南部附近(特别是河东道东部区域)。与其他朝代相比,关陇地区附近亦出现了小范围的文化集群。到了北宋时期,诗人籍贯的集聚区域更加广泛,涵盖了华北、西南、东南三个区域,主要集中在京畿路、京西北路、淮南东路、福建路、成都府路附近;南宋时期,诗人籍贯的集聚区域有所缩小,主要形成两大集群,即以潼川府路北侧、成都府路为主的川蜀集群和以江南西路、两浙西路、两浙东路为主的江南集群。

  5 结语

  古代诗人作为赓续民族文化血脉、传播中华文化声音的重要群体,以诗人时空数据为切入点进行研究,不仅可以窥视不同朝代的历史演进脉络和社会发展情况,还可以从中汲取人文精神养分,实现与古人的跨时空对话与心灵交流。本文从人文社科领域的现实问题出发,以古代诗人为研究对象,将传统人文研究思想与数字人文技术相融合,分别从资源整理层、知识表示层、知识关联层、交互展示层、知识挖掘层五个方面构建了古代诗人时空数据关联与挖掘框架,并以唐宋诗人为实证案例,验证了该模型的可行性与可靠性。研究发现,唐宋时期的诗人主要分布在四大区域,即川蜀地区、江浙地区、江西福建地区以及以黄河流域为主的中原地区,这与当时的经济、政治、文化发展重心基本一致;由唐至宋诗人的籍贯呈现出由中原地区向西南和东南方向迁移的趋势,而唐宋诗人离群点的出现一般与政治因素密切相关。

  如果数据抽取规范制定过于随意,偏离了传统人文研究范式,那么即使采用再先进的信息技术、具备再高超的专业素质也难以确保知识挖掘结果的可靠性与科学性,反而会对学者的研究与科学研究产生副作用。因此,本研究在前人研究的基础上,根植于传统人文研究的现实问题和研究思维,引入数字人文领域相对成熟的知识组织与挖掘流程,构建了古代诗人时空数据关联与挖掘框架,既可保证知识抽取的规范性和研究结论的科学性,又能保证研究创新而不忘本,传承而不守旧。此外,本研究从逻辑层次、语义层次、数据属性和消歧规则四个方面构建了时空数据知识逻辑体系,保障了数据的规范性、专业性、唯一性。最后,将包含语义信息的时空数据与地理信息系统相结合,相较于知识图谱展示方式,这种融合可提升时空数据可视化展示的直观性与高效性;相较于传统的人文研究方式,它可提升时空数据知识挖掘的速率与普适性。但本文从“人—时—地”视角出发展开信息挖掘,对复杂语义信息的处理,仍有待进一步的完善和探索。

  参考文献

  [1]中国政府网.中共中央办公厅 国务院办公厅印发《关于推进实施国家文化数字化战略的意见》[EB/OL].(2022-05-22)[2024-09-07].https://www.gov.cn/zhengce/2022-05/22/content_5691759.htm.

  [2]中国政府网.中共中央办公厅 国务院办公厅印发《“十四五”文化发展规划》[EB/OL].(2022-08-16)[2024-09-07].http://www.gov.cn/zhengce/2022-08/16/content_5705612.htm.

  [3]高劲松,付家炜.面向书画著录的文献循证与时空关联构建研究[J].大学图书馆学报,2022,40(5):26-36.

  [4]施志林.时空数据分布式存储研究[D].赣州:江西理工大学,2015.

  [5]姬龙涛,李亚汝,张军海,等.面向对象时空数据模型研究概述[J/OL].时空信息学报:1-18[2024-11-11].http://portal.sclib.org/interlibSSO/goto/11/+jmr9bmjh9mds/kcms/detail/10.1904.P.20241101.1927.004.html.

  [6]汤俊卿,安梦琪,赵鹏军,等.时空大数据在交通系统韧性研究中的应用回顾与展望[J/OL].地球信息科学学报:1-17[2024-11-11].http://portal.sclib.org/interlibSSO/goto/11/+jmr9bmjh9mds/kcms/detail/11.5809.P.20240822. 1122.004.html.

  [7]中国历代人物传记资料库[EB/OL].[2024-11-11].https://projects.iq.harvard.edu/chinesecbdb.

  [8]唐诗别苑[EB/OL].[2024-09-14].http://tsby.e.bnu.edu.cn/.

  [9]唐宋文学编年地图[EB/OL].[2024-09-14].https://sou-yun.cn/MPoetLifeMap.aspx.

  [10]牛力,黄赖华,贾君枝,等.本体驱动的档案文献遗产元数据设计与应用研究:以苏州丝绸档案为例[J].信息资源管理学报,2023,13(5):15-31.

  [11]高劲松,周树斌,高颖,等.山水志史料资源语义知识关联与多维知识发现研究[J].情报资料工作,2023, 44(5):82-92.

  [12]徐永明,唐云芝.《全元诗》作者地理分布的可视化分析[J].浙江大学学报(人文社会科学版),2019,49(1):150-160.

  [13]宋雪雁,霍晓楠,刘寅鹏,等.数字人文视角下《全唐诗》贬谪诗人的时空轨迹分析[J].图书情报工作,2022, 66(7):26-34.

  [14]宋雪雁,罗慧,杨芳芳.知识重组视域下《全唐诗》送别诗的时空结构研究[J].图书情报工作,2023, 67(20):15-24.

  [15]邓君,孙绍丹,王阮,等.数字人文视阈下明代科举进士群体时空网络结构分析[J].图书情报工作,2020, 64(17):4-17.

  [16]邓君,常严予,孙绍丹,等.数字人文视阈下清代科举进士群体时空网络结构分析[J].现代情报,2022, 42(2):4-13.

  [17]高劲松,张强,李帅珂,等.数字人文视域下诗人的时空情感轨迹研究:以李白为例[J].数据分析与知识发现,2022,6(9):27-39.

  [18]张强,高劲松,龙家庆,等.基于知识重构的词人时空情感轨迹可视化研究:以辛弃疾为例[J].情报学报, 2023,42(6):729-739.

  [19]曹闻.时空数据模型及其应用研究[D].郑州:解放军信息工程大学,2011.

  [20]宋宁远,王晓光.基于情节本体的叙事性文本语义结构化表示方法研究[J].中国图书馆学报,2020, 46(2):96-113.

  [21]黎安润泽,牛力,谢震香.基于循证思维的档案文献遗产数据故事化模型构建研究[J].情报理论与实践, 2024,47(10):151-163.

  [22]范颜铄,周晓英,王克平,等.融合GPT技术和用户需求的文学类古籍资源关联数据发布研究:以《聊斋志异·司文郎》为例[J].现代情报,2024,44(10):154-167.

  [23]林语堂.苏东坡传[M].长沙:湖南文艺出版社,2018.

  [24]施建伟.林语堂传[M].北京:华文出版社,2023.

  [25]陈羽枫.政治操守与仕途坎坷:苏轼的三次被贬谪再探讨[D].保定:河北大学,2017.

  [26]尚永亮.唐五代逐臣与贬谪文学研究[M].武汉:武汉大学出版社,2007.

  [27]钟焓.“唐朝系拓跋国家论”命题辨析:以中古民族史上“阴山贵种”问题的检讨为切入点[J].史学月刊,2021(7):38-61.

  [28]徐宏鹏.唐代丝绸之路文人行迹与诗歌创作:以凤翔至凉州线路为考察对象[D].西安:陕西师范大学,2022.

  [29]张同胜.移动的边塞诗:以唐王朝的边塞与边塞诗为中心[J].浙江工商大学学报,2014(1):18-25.

  [30]刘昫.旧唐书[M].北京:中华书局,1975.

  【作者简介】孟繁爽(1999—),女,黎族,黑龙江哈尔滨人,华中师范大学信息管理学院硕士在读,研究方向:知识组织与信息挖掘;周树斌(1996—),男,汉族,内蒙古赤峰人,华中师范大学信息管理学院博士在读,研究方向:数字人文;李永卉(1979—),女,汉族,安徽六安人,江苏大学法学院硕士生导师,研究方向:历史文献学、数字人文;黄燕梅(2000—),女,汉族,江西赣州人,华中师范大学信息管理学院硕士在读,研究方向:数字人文。