基于数据挖掘的大生档案文献遗产价值研究

发布时间:2024-07-17 19:15:55被阅览数:199 次信息来源:《中国档案》

  文/王玉珏 陈思伶 程烁

  《“十四五”全国档案事业发展规划》提出“实施档案文献遗产影响力提升工程”,旨在充分挖掘档案文献遗产的内在价值,加强对其保护、开发和传播,提升中国档案文化影响力。顺应数据驱动知识服务的背景,在开发方式上,可采用数据挖掘技术,从档案文献遗产记录的大量原始素材中提取挖掘潜在的信息和知识,依托可视化呈现开展知识服务。在价值挖掘维度上,《世界记忆名录》以“历史意义,形态与风格,社会、社群或精神意义”等为标准,为档案文献遗产的意义评定提供规范参考。本文以大生档案为例,运用数据挖掘技术深度分析挖掘大生档案的潜在知识价值,既为国内档案文献遗产与数字技术的深度融合提供新思路,又对接《世界记忆名录》的入选标准,挖掘大生档案的“世界意义”。

  数据驱动下的档案文献遗产价值挖掘框架

  数据驱动下的档案文献遗产价值挖掘框架以数据叙事为导向,包括实体识别、实体组织、实体挖掘与呈现3个环节。

  1.面向价值发现的实体识别

  数据级粒度的开发,首先需要识别档案文献中的各类命名实体,以价值发现为目的,应重点关注能够描述档案内容、反映价值内涵的实体,为后续的组织与叙事提供基于语义的数据要素。现有的关于档案文献遗产元数据和本体、典籍内容知识本体、契约文书描述元数据等的研究,都主要从行为主体、经典事件、时间、地点、物理实体等方面描述档案文献内容。运用命名实体识别技术提取人、地、时、事、物等实体,并借助相应词表规范表达,提炼特定档案文献遗产的专用词典。此外,还有大量隐性知识凝练于文本之中,基于价值挖掘的需求,可以选择描写情感、阐释背景、表明结果等表意丰富的文本展开分析,为档案文献的价值构建提供多维语料。

  2.面向价值关联的实体组织

  在“实体识别”阶段抽取出来的档案数据仍是独立实体,需要构建故事线串联起离散的数据,形成价值关联,提炼叙事线索。考虑到支持叙事的档案文献遗产记录了以事件为中心的重要事实或群体记忆,可参考事件本体模型或元数据方案进行实体描述、组织和规范。借鉴通用事件本体模型(Event Ontology),从事件的影响因子、基本构成要素和产物角度组织实体,形成背景、过程、影响3个叙事角度。背景角度描述事件发生的社会背景,关注与事件相关的政治、经济、文化、社会和专业领域环境,为事件发展和意义构建铺垫背景信息。过程角度整合事件发展过程中的叙事实体,聚焦事、人、时、地、物、情感等维度,构建社群记忆,描绘人群画像,分析时间变化,刻画地点轨迹,揭示情感演化,多维度挖掘故事脉络,为再现事件过程打造场景空间,构建意义表达路径。影响角度揭示事件对现时社会和后世社会的深远影响,为事件的意义阐释提供验证。3个叙事角度贯通连成故事线,各角度拆解相应的叙事维度,形成服务于价值关联构建的实体组织模型。

  3.面向价值阐释的实体挖掘与呈现

  经过识别和组织的实体形成一定的故事脉络,进一步挖掘同类实体内部及不同类实体之间的关联,映射至可视化空间,以多元可视化形式进行叙事表达和价值阐释。结合人文问题情境和学科学理规律对挖掘结果加以人文阐释,最终形成“场景+意义”的叙事结构,完成档案文献遗产的价值挖掘与内涵建构。

  基于数据挖掘技术的大生档案价值挖掘方案

  本文选择大生档案开展档案文献遗产价值挖掘框架的实证研究。

  1.大生档案的“世界意义”价值表征

  《世界记忆项目总方针》(2021版,以下简称《总方针》)将“世界意义”作为入选名录的主要标准之一,从3个方面进行阐释:一是历史意义,文献遗产从知名人士、重要事件、独特现象、关系演变等角度讲述世界历史,描绘历史进程中的重要事实;二是形式与风格,文献遗产在载体类型、美感技艺等方面展现出特别的物理属性;三是社会、社群或精神意义,文献遗产作为现存社群的记忆载体或精神标识,在特定社群中具有重要的记忆价值和文化价值。依据《总方针》对“世界意义”的描述,大生档案的价值可从历史意义和精神意义两方面解析,汇聚着独特的历史价值、记忆价值和文化价值。

  大生档案的历史意义表现为:一是体现中国近代经济社会演变。大生档案客观呈现了早期中国的经济环境和社会面貌,是研究早期工商业发展和现代化建设的重要史料依据。二是形成“实业巨子”张謇人物画像。大生档案清晰地展现张謇作为典型的近代民族企业家的生平经历,勾画出张謇为国为民的人物形象,体现其兴实业、办教育、发展公益事业等行为背后的民本价值观。三是彰显张謇与大生集团的影响力。一方面,大生档案照见张謇与大生集团广泛的社会影响和世界影响;另一方面,大生档案的影响力延伸至现代学术研究。

  2.大生档案的价值挖掘

  (1)大生档案内容实体识别

  本文以南通市档案馆馆藏大生档案为开发对象,从知识元层面映射南通市早期民族工业发展和近代城市转型探索的历史过程。为揭示“南通模式”在当时的社会影响力与在后世学术研究中的重要地位,将民国时期国内主要报刊和西方国家对张謇、大生集团和南通的报道,以及学术数据库中对张謇、大生集团和大生档案的研究论文作为补充资料,辅助多层次剖析和展现大生档案的重要价值。

  一是获取电子文本。大生档案均为纸质档案,内容形式主要为文件、信函、账册、图表等。运用OCR 识别工具识别数字化的大生档案,获取可编辑的电子文本。非文本图像则结合上下文信息和元数据对图像进行人工描述,重点描述图像中的人物、物品等具有叙事意义的实体。二是确定实体类型。在“人地时事物”的识别框架上,考虑大生档案包含若干单位共同形成的23个全宗,且账册占比大,将“物”具化为财务信息实体(金额、财务术语等),补充识别机构实体,因此本文提取大生档案中的事件(个人活动、机构业务活动)、人物、地点、时间、机构、财务信息6类实体。三是命名实体识别。运用基于机器学习的方法识别大生档案中的命名实体,其中事件实体无法直接从档案原文中抽取,依赖人工判断、归纳和描述,因此事件实体由人工根据大生档案的题名进行抽取。同时记录关联实体间的共现关系,方便后续进行档案数据的分析与计算。

  (2)大生档案实体多维组织

  大生档案记录了张謇创办的一系列企事业单位从建立到衰落的历程,个人和企业开展活动必然受到社会背景的影响,也对社会进程产生作用,符合“背景一过程一影响”的逻辑框架。首先以个人活动和机构业务活动为中心建立大生档案内容组织模型,按照“背景一过程一影响”串联各实体要素;其次,采用自底向上的方法从大生档案中抽取实例,对同类实体的实例进行聚类,形成多维度的类型标签,填充内容组织框架,辅助从多维度揭示档案文献的本质属性。本文参考简单事件模型SEM设置的要素类型(sem:Type),设计“实体一实体类型”二层框架,如图所示。

1.jpg

大生档案内容组织模型图

  本文将背景、过程、影响角度作为剖析大生档案的主要角度,基于大生档案的具体内容和价值表征,设计各角度的分析要点和预期分析结果,梳理各角度对应的故事线。

  背景角度反映个人活动与机构业务活动所处的社会环境,关注大生集团从创办、发展到衰落过程中对应的政治、经济、文化和社会全局特征,梳理行业动态、国内外市场环境、政策变化等领域特征,将故事投射于时代背景下,理解特定社会背景下的个人与企业的行为选择和行为意义。过程角度对张謇等人和大生集团在南通早期城市近代化进程中的探索活动展开叙述。聚焦“个人”维度,从张謇的个人活动出发,梳理其在创办和经营大生集团过程中的生平经历、思想观点、动机取向、社会关系等,呈现个人在城市早期近代化探索中的所作所为,一定程度上反映了他在某领域的贡献和影响力。聚焦“企业”维度,序化大生纱厂、南通学院、养老院、育婴堂等企事业单位的大事记,关注各单位对各领域的推动作用;关注各单位间的往来关系,尤其是以大生纱厂为发端,将产业链拓展至盐垦、交通等行业,并推动教育、慈善事业发展的过程。同时,统计分析企业财务信息,反映企业的经营状况,从经济方面体现企业的社会贡献。

  影响角度从时间上划分为现时影响和后世影响,其中前者分为国内影响和国际影响,国内影响揭示以张謇为代表的实业家和以大生纱厂为代表的民族企业对南通和近代中国社会演变和重建的推动作用,国际影响则展现当时西方人眼中的张謇、大生集团和南通形象。后者主要通过学术研究情况影射张謇和大生集团对后世产生的深远意义。大生档案在早期工商业发展和现代化历史研究中的重要地位,以及后世对张謇的评价和情感趋向。

  从背景、过程和影响3个角度解析大生档案,符合挖掘大生档案“世界意义”的逻辑。过程角度讲述了世界历史上的知名人士在民族工业发展中的探索,背景和影响角度从整体上体现社会经济发展和生活变化,国际影响视角强调其在世界范围内的影响力,后世影响视角强调其对后世的深远意义,多角度揭示大生档案的“世界意义”。

  (3)大生档案内容实体挖掘与呈现

  基于各角度的分析要点,选择合适的实体实例和数据挖掘方法展开分析,可视化呈现挖掘结果并加以人文解析,将大生档案数据转化为张謇筹办大生纱厂引发南通工业发展的故事。

  时间轴:通过人工抽取方式发掘与张謇和大生集团相关的事件,通过时间序列分析按时间顺序排列事件,形成“个人一企业”时间轴,记录张謇创办和经营大生集团以及大生集团发展变化的大事记。对应“个人一企业”大事记,提取对应时期的政治、经济、文化和社会方面的重大事件以及行业发展动态等,形成社会背景时间轴。社会背景的提取可充分利用企业的年度总结——“说略”,其记载了当年的市场动态、当地和国内外的社会环境和动态。以时间点为参照将两条时间轴一一对应,大致反映张謇和大生集团开展各项活动所处的社会环境。

  社会关系网络:在一定范围的上下文中同时出现的人物实体和机构实体,一般认为其语义相关,因此,基于共现统计法建立起人物之间、企业之间的关联。运用Ucinet,Gephi等工具进行社会网络分析,分别形成以张謇为中心和以大生纱厂为中心的社会关系网络,直观展示两者的社会关系。通过分析关联度高的实体间的关系特征、计算其他中心人物或企业并分析中心实体的特点,挖掘人物或企业在不同领域的社会关系,研究张謇和大生集团在领域中的影响力和权威性。

  词云图:通过对选定主题范围内的文本进行分词、去停用词和词频统计,内形成高频词汇的词云图,可运用POST CM软件进行高频词统计,运用Python的WordCloud模块可视化词云图。首先根据内容主题对大生档案进行聚类,将大生档案的题名转化成向量,采用划分聚类或层次聚类算法计算向量在高维空间的距离得到相似性,将更相似的档案划分为一簇,聚类的结果可能会将大生档案分成不同领域,如实业、教育等。其次选取各领域档案中描述具体行动过程和行动结果的文本,绘制个人与企业贡献词云图,分析张謇和大生集团在具体行动过程展现的观点、动机、关注重点等,分析其在社会各方面作出的贡献。

  情感倾向图谱:选取民国时期国内主要报刊和西方国家的相关报道、学术论文中带有评论或情感描写的文本展开情感分析。将文本导入NLPIR语义分析平台中,利用情感分析模块自动识别并计算文本中情感词的权重,得到文本的情感极性(正向、负向、中性)和情感得分,据此可从整体上把握国内社会、国际社会和现代社会对张謇、大生集团和南通的情感趋向。进一步开展情感趋势分析,分析不同时期情感倾向的变化,若存在明显拐点则可以结合国内外社会背景研究产生情感波动的可能原因。NLPIR还能够提取文本中的情感关键词,分别呈现正负向情感词词云图,据此可分析或对比民国时期国人和西方人眼中的“南通模式”,展现南通在世界舞台上塑造的形象,以及分析后世对张謇和大生集团的评价视角和情感表达是否有所改变。

  文献计量图谱:运用文献计量法和统计方法对某主题研究论文进行分析,能够表征该研究领域的发展趋势和研究热点,指明未来的研究可能性。从学术数据库中获取与“张謇、大生集团、南通近代化、大生档案”有关的论文,运用统计方法统计论文年度分布;利用VOSviewer、CiteSpace等文献可视化工具绘制关键词共现网络、关键词共现时区图和关键词突变表等揭示该领域的研究热点、研究主题演化、研究前沿等,彰显该领域研究在中国民族工业发展、城市早期近代化探索研究中的重要地位,从而凸显大生档案宝贵的历史研究价值。

  上述数据挖掘方法从“背景、过程、影响”3个角度对大生档案展开价值挖掘,既发掘出张謇在社会各领域的行动和宝贵贡献,又揭示出张謇在当时和后世受到的爱戴和赞誉,最终落脚于彰显以爱国主义为核心的企业家精神,阐释大生档案蕴含的深刻价值内涵。

  参考文献:

  [1]王玉珏,施玥馨,严予伶、全球文献遗产保护政策“风向标”--联合国教科文组织《世界记忆项目总方针》(2021)研究[J].档案与建设,2022(1).

  [2]王阮,邓君.故事线构建及可视化、情感化、场景化应用探索-以《张学良口述历史》为例[J].图书情报工作,2022(7).

  [3]牛力,黄赖华,贾君枝,等.本体驱动的档案文献遗产元数据设计与应用研究--以苏州丝绸档案为例[J].信息资源管理学报,2023(5).

  [4]牛力,高晨翔,张宇锋,等.发现、重构与故事化:数字人文视角下档案研究的路径与方法[J].中国图书馆学报,2021(1)

  [5]牛力,黎安润泽,刘雨欣,等.数字人文视角下学术名人传记多维度分析模式以《吴宝康学术年谱》为例[J].图书情报工作,2023(6).

  [6] 王玉珏,朱娅,辛子倩.“世界意义”标准视角下的中国文献遗产申遗策略研究[J].档案学研究,2023(4).

  [7]大生纱厂亚太记忆名录申请书[EB/OL].[2023-12-14].http://www.mowcapunesco.org/wp-content/uploads/China-Archives-of-the-Dasheng-Spinning--Factory-6.pdf.

  [8] 汤萌,陆星宇.民间文书中账簿资源元数据模型与空间可视化应用研究[J].图书馆杂志,2021(12).

  [本文系2022年国家社科基金年度重点项目“数字时代档案记忆理论创新研究”(项目编号:22ATQ009)的阶段性研究成果]

  作者单位:武汉大学信息管理学院、武汉大学文化遗产智能计算实验室

  责任编辑:王辉