发布时间:2024-08-09 20:27:23被阅览数:211 次信息来源:《山西档案》
文/赵雪芹 李金璐
摘 要:档案知识聚合是数智时代档案资源开发利用的模式转向和创新路径。挖掘万里茶道茶商档案资源间隐含的知识关联,进而实现多维度、多层次的知识聚合,对于万里茶道茶商档案资源的知识组织、语义关联与知识服务具有重要意义。从数据资源层、知识组织层、关联聚合层、服务应用层构建了人物事件导向下万里茶道茶商档案资源的知识聚合模型;再以“羊楼洞”茶商档案资源为例进行实证研究,证明茶商档案资源知识聚合模型设计的科学性与实用性,以期为万里茶道茶商档案资源知识组织与开发利用提供借鉴思路,助力万里茶道申遗工作稳步推进。
关键词:档案知识聚合;万里茶道;茶商档案资源;茶商人物事件
“万里茶道”是17世纪至20世纪前期横跨亚欧大陆的国际商道,是继“丝绸之路”之后的又一条重要国际大通道[1]。2019年,万里茶道被国家文物局列入《中国世界文化遗产预备名单》,承载着重要的经济价值、历史价值和文化价值,是我国重要的线性文化遗产。茶商档案资源作为万里茶道档案资源的重要组成部分,是以茶商人物事件为中心,围绕茶商所进行的茶叶活动收集、整理而成的档案资源,具有空间分布零散、语义内容丰富、关联关系多样等特征[2]。茶商从茶源地到销售地构建了一个十分严密的采购、运输、加工、转运、销售等完整的网络体系,但是已有研究仅停留在主要节点和茶商群体层面,对茶商人物事件之间的关系、茶商人物社会关系网络等方面的研究还十分缺乏。将茶商档案资源的研究粒度从物理层面的抢救立档提升至知识层面的知识聚合,从知识组织角度挖掘茶商档案资源的价值,有利于万里茶道档案资源深度挖掘与开发利用,助力万里茶道的申遗工作。
档案知识聚合作为档案领域构建多维度、多层次知识体系的新方法,能够对档案资源中存在隐性关联的记忆实体和元素进行凝聚和组合,形成高聚合度、强关联性的新知识集合。当前,档案领域的知识聚合研究还处于起步阶段,研究内容包括社交媒体环境下的档案知识聚合服务[3]、多模态档案资源知识聚合模式/模型构建[4]、抗战档案资源知识聚合及可视化[5]等,研究层次逐渐从理论延伸到实证。档案知识聚合选取的研究对象包括红色档案文献[6]、东巴历史档案[7]、文书档案[8]等,尚未关注到文化遗产领域的档案知识聚合,具备独特文化价值的茶商档案资源有待深度挖掘和开发利用。在知识组织方面,曾刚、赵雪芹等[9]基于知识元、本体和Neo4j[10]对万里茶道档案资源进行了知识描述与组织,实现对细粒度、多维关联知识的揭示。但目前的研究粒度还停留在对万里茶道档案资源知识组织的整体研究上,未深入档案资源的记忆实体及语义关系,也未聚焦于对万里茶道档案资源中蕴含的具有独特价值的具体对象进行深入挖掘和分析。
因此,本文将研究粒度延伸至茶商档案内部的记忆实体层级,探求茶商人物和事件等记忆实体之间的语义关系进行知识聚合,通过构建人物事件导向下万里茶道茶商档案资源知识聚合模型,以“羊楼洞”茶商档案资源为例,对聚合后的知识网络进行可视化操作,凸显聚合后的知识凝聚效果,以期能够将万里茶道形成过程中发生的一系列茶商故事进行叙事可视化呈现,追寻茶商记忆,感悟茶商精神。
1 人物事件导向下万里茶道茶商档案资源知识聚合模型
本文依据文件连续体理论中关于档案形态由“文档”“文件”演变至“档案”“档案集合”过程中的层次规律,参考名人档案价值挖掘层次结构与空间布局[11] ,融入数字记忆相关内涵的表述,凸显茶商档案所承载的茶商记忆,以此作为人物事件导向下万里茶道茶商档案资源知识聚合模型构建的底层逻辑。如图1所示,最初孤立离散的人物、时间、组织机构等记忆实体经过有序地排列建构,以语段的形式组成集合式记忆片段,再通过关系挖掘将提取的记忆实体及其语义关系存入图数据库形成记忆单元,最后借助知识图谱等技术将记忆单元进行关联展示,由此转变为具有关联性和整体性的茶商记忆图谱,助力茶商数字记忆建构。记忆实体、记忆片段及记忆单元、记忆图谱等概念着重体现了茶商档案资源知识聚合过程中的层次变化,为人物事件导向下茶商档案资源知识聚合模型的构建提供底层逻辑。
图 1 模型构建的底层逻辑
基于上述模型构建的底层逻辑和思路,参照基于人物事件导向的本体建构方法,构建出了图2所示的万里茶道茶商档案资源知识聚合模型。从层次结构来看,人物事件导向下万里茶道茶商档案资源知识聚合模型共分为四层:数据资源层、知识组织层、关联聚合层和服务应用层。分层聚合思想体现了茶商档案资源知识聚合的具体过程,也实现了茶商档案“数据→知识→服务”的升华。
图 2 人物事件导向下万里茶道茶商档案资源知识聚合模型
1.1 茶商档案数据资源层
数据资源层是对茶商档案资源进行收集、预处理和存储的模块,提供茶商档案资源的数据支撑和数据来源,是整个模型的最底层结构。数据资源层的流程具体包括:第一,茶商档案资源数据获取。数据获取主要包括选取资料来源、确定资料内容、整理资源类型三个方面。第二,茶商档案资源预处理。茶商档案资源具有空间范围广、知识关联性强的特点,其保管相对分散,信息化程度呈现出地域差异性,因而数据采集的关键在于将来源广泛的茶商档案资源实现数字化到数据化的处理和转变。本文采用人工抽取方法对茶商档案资源进行预处理,主要工作是对数字化档案资料进行数据化处理,以规范化形式对其进行著录。著录过程将人物、事件、时间等记忆实体进行了提取和有序排列,并依据上下文描述形成完整语段的记忆片段。第三,建立茶商档案数据库。经过预处理的茶商档案数据结构包括结构化数据、半结构化数据和非结构化数据,具有异构性特征。以数字格式存储茶商档案资源,可以利用文本分析技术、数据挖掘技术等建立茶商人物专题数据库,确保多源异构档案数据的集中管理与共享利用[12]。在后续研究工作中,茶商档案资源数据库充当关联聚合的数据源,还可以为进一步挖掘万里茶道的内在活化知识因子、为新知识创造提供便利。
1.2 茶商档案知识组织层
知识组织层即构建茶商本体知识模型,对之前预处理后的茶商档案资源进行统一描述、组织和标引,将其进行知识序化和统一的知识表示,清晰揭示其语义内容,为深度关联与聚合提供结构基础。本体构建一方面可复用档案领域本体,并在此基础上补充元素加以改进;另一方面可以自建本体,具体包括元数据标准筛选、元数据抽取、术语词表构建、确认类的等级体系构建,定义类与类、类和属性关系等步骤,并进行实例化展示[13]。美国斯坦福大学提出的七步法对本体构建步骤进行了详细描述,同时支持复用本领域内其他成熟本体和人工辅助构建。因此,本文考虑参考复用SEM、FOAF、CIDOC-CRM等成熟本体模型并确定本体模型中核心类、属性和关系,以此建立茶商档案资源的规范化描述框架,实现档案资源语义层面的知识组织。具体构建流程包括:首先,根据万里茶道茶商档案资源特征,选择和定义茶商档案本体核心类,并确认类与类、类与属性之间的层次结构与等级体系,构建本体模型;其次,定义茶商档案本体中不同类的属性,充实本体概念信息、结构以及概念间关系的属性;最后,创建实例并进行可视化处理,更直观地展示茶商档案资源之间的关联关系。
1.3 茶商档案关联聚合层
关联聚合层即基于知识图谱和Neo4j图数据库构建万里茶道茶商档案记忆图谱。知识聚合结果中的知识节点、知识关联并不能以最直观的方式使人理解并应用,而记忆图谱具有知识导航、揭示隐性知识的作用,可以更好地展现出知识聚合后的关联效果,进而串联成知识网络。Neo4j图数据库的基本组成结构是节点、关系、属性,与记忆图谱基本组成单位的三元组中的“实体—关系—属性”结构存在着一一对应的关系[14]。经过提取的茶商档案记忆实体及其语义关系将直接生成为语义三元组的形式存入Neo4j图数据库构成记忆单元,基于这些记忆单元的知识组织和关联聚合便可以形成茶商档案记忆图谱,将记忆单元重塑为关联化、可视化的高维记忆空间。关联聚合层构建流程主要包括模式层、数据层架构以及基于Neo4j进行实例化展示。模式层包括本体解析、本体映射与关联;数据层包括记忆抽取(实体、关系、属性)和记忆融合(实体消歧、共指消解、知识合并)。图数据库可以实现茶商档案资源知识单元向茶商档案资源知识网络的转化与升华,是茶商档案资源本体映射链接的结构工具和茶商档案资源记忆图谱的存储与绘制工具。
1.4 茶商档案服务应用层
服务应用层是人物事件导向下茶商档案资源知识聚合模型的最顶层框架,旨在基于茶商档案记忆图谱的关联展示,建立万里茶道茶商档案知识库和茶商数字记忆平台。经过凝聚和重组后的知识通过属性关系关联形成知识网络,实现资源多维互联,能涵盖万里茶道茶商档案资源所涉及的人物事件相关知识。万里茶道茶商数字记忆平台建立的茶商档案知识库为知识补充源,提供用户获取知识的接口和平台,同时以可视化的形式展现给用户并揭示知识间的关联性,有助于增加知识之间的黏性[15]。史学研究人员和社会公众借助数字记忆平台可以检索万里茶道茶商档案资源中人物事件的相关知识,从而进一步推动对万里茶道茶商人物、茶商群体、茶叶贸易、交通文化等方面的研究,既充分发挥茶商档案资源的文化价值和史料价值,又通过用户利用实现知识传播和再利用。经过凝聚和重组,产生的新知识或衍生出的知识也在不断填充、拓展着茶商档案知识库中的内容,从而实现知识循环利用,极大地提高了知识的利用率。
2 实证研究——以“羊楼洞”茶商档案资源为例
基于上述构建的人物事件导向下茶商档案资源知识聚合模型,选取“羊楼洞”茶商档案资源进行实证研究。鄂南古镇赤壁羊楼洞是万里茶道的重要源头,也是明清时期的两湖茶叶制造中心,始于唐朝,兴于宋朝,盛于清朝,因出产青砖茶驰名中外,被称为“世界茶业第一古镇”。明清鼎盛时期,除了本地茶商——洞商之外,还有晋商、粤商、徽商等国内茶商,以及俄国、英国、美国商人等外国商人,以赤壁羊楼洞茶区为中心,开设茶庄200多家[16]。
2.1 茶商资源采集与预处理
本文所收集到的档案资源主要来源有两个:一是国家社会科学基金重大项目“万里茶道茶业资料搜集整理与研究”课题组实地走访、考察收集到的档案资源;二是该课题组通过研读整理和编研出版的资料汇编、专著、论文、调查报告等文献资料,如《“万里茶道”茶业资料汇编·汉口卷初编》《洞商与羊楼洞区域社会》等。资源类型以图像和文本资源为主,内容包括:正史、方志、报刊、公文、谱牒、碑刻、民间读本、口述史料、照片档案等一次文献;档案馆馆藏目录、万里茶道茶业资料汇编成果等二次文献;出版和发表与洞商相关的专著、论文、调查报告等三次文献。本文采用人工抽取的方法对茶商档案资源进行预处理,主要工作是对数字化档案资料进行数据化处理,以规范化的形式对其进行著录。著录项主要包括序列号、文件编号、资源类型、题名、人物与机关团体、时间、空间、内容提要、相关资源、金额、页数、资源对象、语种、贸易路线、茶叶种类、制茶过程16项。
2.2 茶商本体知识模型构建
首先,依据前文设计的本体知识模型构建步骤,参照已有的本体知识模型考虑本体复用情况。本文重点参考 FOAF本体知识模型中关于人物的基本特征描述概念,将其具体化为foaf:Person(人物)和foaf:Organization(组织机构),将其作为两个核心类;复用SEM简单事件知识模型中的sem:Event(事件)和sem:TimE(时间),将其作为核心类;复用CIDOC-CRM本体知识模型中的crm:Place(空间)类,并增加了crm:Thing(事物)类和crm:Type(资源)类;事物类用于描述茶商档案资料中所记载的自然物、人造物等实物对象,自然物(Physical Thing)如茶叶、骆驼等;人造物(Man-made Thing)如茶园、茶庄、茶厂、会馆等。根据羊楼洞茶商档案资源所涉及的主要内容,设计出了人物事件导向下羊楼洞茶商档案资源本体知识模型,具体包括人物、事件、时间、空间、组织机构、事物、资源类型七大核心类。其次,创建羊楼洞茶商资源本体类的对象属性,充实本体概念信息、结构以及概念间关系的属性。最后,构建羊楼洞茶商档案资源本体知识可视化模型,如图3所示。提供对羊楼洞茶商档案资源知识的规范化表示,揭示茶商、茶叶运输事件和运输时间、贸易集散地和茶商组织以及涉及事物之间错综复杂的隐含关联。
图 3 羊楼洞茶商档案资源本体知识可视化模型
2.3 茶商记忆单元关联聚合
2.3.1 本体映射
为统一知识结构的表现形式,需要预先设计本体模型向知识图谱映射的具体规则,实现本体知识模型中的类、属性、关系、实例向知识图谱中的节点和关系的转换。Neo4j图数据库中创建的属性图由节点和边组成,不同类型节点通过边相连,构成具有关联的知识网络。根据本体知识模型和知识图谱中相关元素的对应关系,面向羊楼洞茶商档案资源,映射规则设置如下:首先,将本体知识模型中的类和实例映射为知识图谱中的节点,如羊楼洞茶商档案资源知识模型中人物类、空间类等,如“雷中万”“庙场街”在Neo4j图数据库中就是独立的节点;其次,本体知识模型的对象属性映射为知识图谱中的边,如羊楼洞茶商档案资源本体知识模型中洞商人物雷中万与羊楼洞茶庄之间是“construct(建造)”关系,“雷中万”与“雷振祚”之间是“is located in(位于)”关系,则可以映射成知识图谱中具有确定方向性的边;最后,将本体知识模型中的数据属性映射为知识图谱中节点的属性,以丰富节点的内涵;例如“雷兴传”这一人物实体节点的数据属性有性别、简介、籍贯等信息,“青砖茶”这一事物实体节点的数据属性有名称、功用和说明;此外,节点与节点之间的关系也可以建立属性,例如节点“雷中万”与“羊楼洞茶庄”之间存在“construct”关系,建造时间为“1736年”。
2.3.2 知识抽取
羊楼洞茶商档案资源知识抽取主要包括两类文本类和图像类。一方面,对于文本类茶商档案资源,直接抽取实体、关系、属性信息。以羊楼洞明清石板街档案文本为例,可以抽取出“庙场街”“复兴街”等实体,“包括”“形成”“位于”等关系,以及长度、宽度、面积、建造材质等属性和属性值。将从羊楼洞茶商档案资源中抽取出来的知识单元用<实体,关系,实体>或<实体,属性,属性值>RDF三元组进行表示,例如,事物与时间的关联可以表示为<羊楼洞明清石板街,始建于,明代>,事物实体与其属性之间的关系可以表示为<羊楼洞明清石板街,建造材质,青石板>等。另一方面,对于图像类茶商档案资源,则需要先获取对应的文本描述信息,再进行知识抽取。经过人工抽取后的羊楼洞邱氏“春生利”茶庄实体、关系、属性数据如表1所示。在知识抽取过程中不可避免地会出现人名字号不同、地名/机构变化、一词多义等问题,容易将表示同一实体的不同词汇理解为两个实体,导致知识之间存在歧义和不匹配情况。例如,“中国茶叶总公司羊楼洞砖茶厂”是“湖北省赵李桥茶厂有限责任公司”的前身,它们都指代的是赵李桥茶厂这一实体。因此,在具体操作中要对这类相似概念进行同义词处理,即将同一实体的不同表述链接到正确的实体上,从而达到消除歧义的目的。
表 1 羊楼洞邱氏“春生利”茶庄图像知识描述与抽取
2.3.3 关联聚合
将抽取到的记忆单元根据共有的实体或属性进行关联聚合,得到关于羊楼洞茶商档案资源的关联网络。例如,将经过知识抽取后的“洞庄茶号”相关的人物、事件、时间、空间等实体进行关联聚合可以得到图4所示的实体知识网络。图中大致语义信息为:清乾隆元年(1736年),羊楼洞商人雷中万开始创办“羊楼洞茶庄”,后又将“羊楼洞茶庄”更名为“洞庄茶号”。茶号设在羊楼洞古镇庙场,厂房设在羊楼洞观音泉下60米处,以羊楼洞芙蓉山老青茶为原料,引观音泉水制作成青砖茶。雷中万第四子雷东阳、孙子雷国祥、曾孙雷立南均经营“洞庄茶号”,生意兴隆。通过这一知识网络,用户可以快速且清晰地了解到羊楼洞茶庄的语义信息,同时,也为后期大规模记忆单元的关联聚合奠定了语义基础。
图 4 “洞庄茶号”实体关联网络
2.3.4 图谱绘制
基于Neo4j创建的知识图谱以属性图的形式存储在数据库中,支持通过Cypher语言进行节点关系创建与检索查询,提供了灵活的知识图谱构建方式。因此,本文采用Neo4j图数据库存储羊楼洞茶商档案资源记忆图谱,以属性图的方式实现 RDF三元组数据的存储和查询。茶商记忆图谱可以展示个体与个体、个体与组织、组织与组织之间的关系,以及茶商在茶叶种植、加工等活动中与时间、空间、事物等的关系。将抽取出来的的实体实例和关系等数据分别存储到节点表和关系表中,并转化为CSV文件,然后利用Cypher语句“LOAD CSV”命令将数据批量导入Neo4j图数据库中,再对节点、关系、属性加以完善。记忆图谱既可以呈现本地茶商、外地茶商、外国茶商三种茶商之间代表性人物关系,也可以呈现茶商家族之间的人物关系。图5所示的记忆图谱展示了羊楼洞茶商家族雷氏家族的人物关系。此外,图像可以加强记忆图谱整体的知识表达效果,因此在中文版Neo4j中导入图片,使用CREATE语句创建图片节点来展示图文知识关联效果。图6所示的事物类图文记忆图谱生动展现了羊楼洞石板街、雷家大院、赵李桥茶厂、砖茶、中国青砖茶博物馆之间的隐含关联关系。
图 5 雷氏家族人物关系记忆图谱
图 6 基于 Neo4j 的羊楼洞茶商档案资源事物类记忆图谱
2.4 茶商数字记忆平台搭建
经过聚合后的茶商知识将通过茶商数字记忆平台进行展示和检索。规划建立的茶商数字记忆平台可以实现茶商人物事件查询和知识发现服务,例如茶商人物生平及个人信息查询、茶叶贸易事件查询、茶商足迹发现、茶业销售线路可视化等。图7所示为茶商数字记忆资源可视化平台设计图。平台左侧的知识模型及实例模块具体展示了“雷氏家族创立并经营羊楼洞茶庄”这一人物事件描述以及关联时间、关联空间、关联机构、关联事物等内容。在平台右侧知识检索模块的检索框输入“雷兴传”进行查询,便能够检索到与之相关的茶商人物实例查询结果,点击检索结果可以查看关于洞商“雷兴传”的记载详情。同时,茶商数字记忆平台中部知识网络模块还展示了羊楼洞地区的茶商关系网络,其中晋商家族包括榆次常家、祁县渠家、太谷曹家、平遥李家等茶商家族,洞商家族包括雷氏、饶氏、贺氏、游氏、黄氏等茶商家族。羊楼洞古镇雷氏家族世代经营茶叶,通过记忆图谱的形式呈现历代雷氏茶商人物关系,体现了雷氏茶商依靠血缘纽带所维系的茶行商业记忆和家族认同。
图 7 茶商数字记忆资源可视化平台
3 结语
万里茶道是宝贵的历史文化资源,也是我国珍贵的文化遗产,其中茶商档案资源是万里茶道资源中重要的组成部分,具有重要的研究价值和研究意义。本文构建了人物事件导向下茶商档案知识聚合模型并进行了实证研究,为万里茶道茶商档案资源的组织关联、多维呈现提供创新视野,同时也为档案知识聚合相关实践问题的解决和理论研究与深化给出参考与借鉴。同时,未来将聚焦于研究茶商人物社会关系网络、茶商人物群体系统等深层价值信息,充分挖掘茶商档案资源蕴含的知识价值,讲好万里茶道茶商故事,为万里茶道保护和申遗贡献智慧。
参考文献
[1]黄柏权,曾育荣.万里茶道茶业资料汇编:宜红茶区卷初编[M].武汉:湖北人民出版社,2019.
[2]曾育荣.“万里茶道”茶业资料的特点[N] .中国民族报, 2020-09-15(6).
[3]魏扣,李子林,金畅.社交媒体环境下档案知识聚合服务实现架构研究[J].档案学通讯,2018(6):61-66.
[4]牛力,展超凡,高晨翔,等.人物事件导向的多模态档案资源知识聚合模式研究[J].档案学通讯,2021(4):36-44.
[5]陈海玉,向前,何剑锋.面向知识服务的抗战档案资源聚合与可视化展现探究[J].档案学研究,2021(2):111-118.
[6]付靖宜,李姗姗,项欣溢,等.新四军苏浙军区多模态红色文献资源知识聚合模式研究[J].档案学研究,2022(4):24-31.
[7]陈雨,陈海玉,李文惠.数字人文视域下东巴历史档案资源知识聚合与服务研究[J].山西档案,2023(4):100-109.
[8]于英香,姚倩雯.面向知识服务的文书档案知识聚合模型构建[J].北京档案,2023(3):8-12.
[9]曾刚,赵雪芹.基于知识元的万里茶道数字资源知识抽取与组织研究[J].情报理论与实践,2021(10):173-178.
[10]赵雪芹,李天娥.面向数字人文的档案领域本体构建研究:以万里茶道档案资料为例[J].情报理论与实践,2022(8):154-161.
[11]牛力,高晨翔,刘力超,等.层次与空间:数字记忆视角下名人档案的价值挖掘研究[J].档案学研究,2021(5):138-144.
[12]金波,陈坚,李佳男,等.大数据时代档案数据资源整合探究[J].档案与建设,2022(9):18-23.
[13]邓君,王阮.数字人文视域下口述历史档案资源知识发现模型构建[J].档案学研究,2022(1):110-116.
[14]赵雪芹,杨一凡,于文静.基于Neo4j图数据库的工程档案知识图谱构建及应用[J].档案与建设,2022(5):48-51.
[15]唐长乐,张晓庆.面向公共决策的重特大事件档案专题知识库构建研究:以地震档案为例[J].档案与建设,2024(2):88-94.
[16]李灵玢.万里茶道上的羊楼洞茶商[J].长江文史论丛,2018(00):29-43.
【基金项目】国家社科基金后期资助项目“文化大数据背景下线性文化遗产档案资源知识融合研究”(项目编号:22FTQB008);湖北省高等学校哲学社会科学研究重大项目“数字人文视域下万里茶道档案资源知识融合研究”(项目编号:22ZD029);武汉大学文化遗产智能计算实验室开放基金项目“数字人文背景下万里茶道档案资源叙事服务与沉浸式交互体验研究”(项目编号:2023ICLCH005)。
【作者简介】赵雪芹(1983—),女,汉族,山东青岛人,湖北大学历史文化学院教授、硕士生导师,博士,研究方向:档案信息服务、档案叙事等;李金璐(2000—),女,汉族,湖北宜昌人,湖北大学历史文化学院硕士在读,研究方向:红色档案、档案资源组织。