发布时间:2024-09-05 19:50:59被阅览数:272 次信息来源:《山西档案》
作 者:赵生辉 徐丹丹 马藤
摘 要:提出中文历史档案数据化整理的学术概念,参照FEAF框架设计技术参考模型,针对面临的现实阻力提出若干实践策略。中文历史档案数据化整理是致力于采用数据科学的理论、方法和技术,通过人工标注与机器学习相结合的方式,将历史档案的背景信息、自然语言文本的语义信息和对应社会系统的语境信息转换为计算机可以高速精准处理的大规模结构化数据集的过程。现阶段应进行战略规划,制定相关标准,并按照超前布局的理念启动基础设施建设,分层级、有重点地予以推进。
关键词:中文历史档案;档案整理;档案数据化;历史大数据
2015年11月,加拿大学者肖恩·格雷厄姆(Shawn Graham)与同事合作出版了著作《探索历史大数据:历史学家的宏观视角》(Exploring Big Historical Data: The Historian’s Macroscope)[1],该书集中展示了历史学者在史料大数据平台的支持下,通过人文计算和数据挖掘,仅凭一台电脑就可以足不出户完成重大历史问题的验证分析并发现重要结论的多种案例与场景。肖恩·格雷厄姆的观察和经验是具有普适性的,如果把我国数以千万计的历史档案经过数据化整理加工成为历史大数据集,中国的历史学者也可以像书中描述的一样,通过数据计算分析完成某些重大历史问题的研究探索。建设可信、完备的大数据基础设施既是推进中文历史档案资源活化开发的技术手段,也是人工智能时代抢占历史“数据高地”的战略举措。档案学界部分学者已经认识到中文历史档案数据化整理对驱动历史文化研究智能化转型的战略价值并开始进行理论探讨。然而,这一激动人心的宏大计划要真正落地实施还面临着诸多挑战,本文从国家战略层面上对中文历史档案数据化整理的概念范畴、技术框架和实践策略等基础问题进行初步探索和思考,以期为学界进一步提出更为深入的理论问题,为业界制定相关领域的具体实践方案提供框架性的参考体系。
1 研究范畴界定
中文历史档案数据化整理是在我国档案信息化建设总体上由“档案数字化”范式向“档案数据化”范式转型的背景下提出的,是“档案数据化”战略框架在历史档案整理领域的具体应用。
1.1 “中文历史档案”的范畴定义
学界对历史档案(Historical Archives)一词通常有两种理解:相较作为知识载体的科技档案,历史档案是指内容信息以记录或反映人类社会活动演进过程为主题的档案资源;与当前社会生活联系紧密的当代档案相较,历史档案是指形成时间相对久远、当前社会生活不会对其构成重大影响的档案资源。国内大多数研究参照历史文献的划分标准,将历史档案定义为“产生于1949年之前而遗存至今的档案实体”[2],也有研究根据需要将时间范围延长至1949年到1978年改革开放之前[3]。因此,中文语境下的历史档案,通常是指从商周时期到20世纪后半叶的3 000余年时间里持续形成的,载体覆盖甲骨、金石、简牍、缣帛、纸张甚至数字载体等形式,采用汉字和多种少数民族文字作为记录符号,记录或反映汉族和各少数民族共同缔造中华文明进程,内涵极为丰富的档案资源体系[4]。此处的历史档案具有两大核心特征:一是内容记录和反映人类社会实践活动进程;二是形成时间相对久远。需要说明的是,标题所述的中文是指“中国文字”,“中文历史档案”即在中国历史进程中形成的以汉字和各个少数民族文字作为记录符号的历史档案。考虑到汉字历史档案数量和档案汉语利用者数量占据绝大多数,实践中可先将少数民族文字历史档案翻译为国家通用语言文字版本再进行整理[5]。同时,针对使用繁体汉字生成的历史档案,也需要先将繁体字转换为国家通用的简体汉字再进行整理。
1.2 中文历史档案整理方法的演进过程
中国古代历代中央政权都重视文书典籍的收集和保护工作,设立有“石室金匮”“石渠阁”“后湖黄册库”等专门机构,制定了“避讳”“副本”“贴黄”“勾检”“汇抄”等各类管理制度[6]。基于现代档案学理念的体系化历史档案整理是从近现代才开始的,中国第一历史档案馆和中国第二历史档案馆是国内最权威的明清和民国历史档案管理机构。除此之外,大多数地方档案馆都收藏有相当数量的历史档案,尤其以清代和民国时期形成的档案居多,内蒙古、新疆和西藏等少数民族聚居区的地方档案馆还保存有相当数量的少数民族文字历史档案。历史档案的基础整理主要是对档案实体进行文字识读、抄录、点校、分类、立卷、排序、编目等序化处理。20世纪90年代后期各地掀起了“档案数字化”潮流,陆续开始进行针对历史档案全文的数字化扫描、字符识别和计算机管理实践,近年来伴随人工智能时代的崛起,针对文本内容的历史档案数据化整理成为学界关注和思考的热点问题[7]。“档案数字化”和“档案数据化”并非两个截然分开的信息化发展阶段,“档案数字化”同时包含档案全文数字化扫描和档案文件数据编目两方面的任务。从这个意义上说,“档案数字化”阶段已经孕育有“档案数据化”的“萌芽”,只不过当时数字化成果的价值体现为供用户跨越时空进行档案文本浏览,编目仅是针对文件属性特征的粗粒度“档案数据化”,目录数据属于支撑用户检索的辅助性资源。到了人工智能时代,要让机器更好地服务于人类,就要将之前供人类查阅浏览的档案文本转换为智能设备可以处理和理解的结构化资源,即针对文本语义信息的细粒度“档案数据化”。因此,“档案数据化”可以视为“档案数字化”阶段档案文件数据编目工作的延续和深化,是针对档案文件本身、档案形成背景和档案生成语境全方位、细粒度、语义化的“数据编目”。
1.3 “中文历史档案数据化整理”的术语定义
针对文本语义信息的“档案数据化”试图解决历史档案自然语言文本的非结构化特征与智能设备的模型化计算需求之间的矛盾,主要基于两大技术路线:第一种是基于经验主义思维和黑箱原理的自然语言处理(Natural Language Process,NLP)路线,通过建立大规模语料库并训练数据模型,实现档案文本的语义计算;第二种是基于理性主义思维和白箱原理的数据科学路线,通过文本核心语义信息的结构化建模实现档案文本的语义计算。第一种路线可以模拟自然语言的表达方式,但是信息检索精准度方面存在缺陷,本文主要关注第二种技术路线。因此,“中文历史档案数据化整理”是致力于采用数据科学的理论、方法和技术,通过人工标注与机器学习相结合的方式,将中文历史档案的背景信息、自然语言文本的语义信息和对应社会系统的语境信息转换为计算机可以高速精准处理的大规模结构化数据集的过程。大量历史档案经过数据化整理形成框架式数据集,在形态上具有计算机擅长处理的结构化形式,在要表达的核心语义信息方面与历史档案自然语言文本接近,因而可以作为档案自然语言文本的“数据分身”(Data Surrogate)供计算机调用。大量历史档案的框架式数据集基于相同的语境标记和逻辑标签相互关联,聚合成为“历史大数据”[8],档案利用的便利性和效率得以大幅提升,并催生出精准检索、机器阅读、智能问答等多种智能化利用方式。
2 技术参考模型
人是在特定社会场景当中生活的,大脑理解周围的世界和处理信息天然地带有多维度深度融合型特征,体现在档案中就是文本内容同时反映了多个维度的信息,而形成者通常意识不到这一点。与此不同,以计算机为代表的智能设备信息处理的底层逻辑是数理计算模型,擅长处理单一维度的信息而难以同时处理多维度融合型信息,较为有效的解决方案是先“降维分治”再“多维聚合”。
2.1 中文历史档案数据化整理的技术框架
档案作为历史的“化石”,其形成原理和发挥价值的方式与生物化石类似。直接或间接记录社会生活的人通过文字或者图案将自身对所处社会系统和当前情境的种种信息及其理解记录于某种载体之上,如果内容重要到具有保存价值就形成了档案。每一份历史档案都留有所在社会系统的种种印迹或者线索。随着时间推移,档案形成者以及档案描述的机构、人物、事件可能都不复存在,唯独档案跨越时间和空间的界限得以留存。借助历史档案,后人得以了解之前人类社会生活的各类信息。受到技术条件的制约,传统的历史档案利用主要凭借领域专家对特定历史时期社会系统的知识积累完成档案文本的识读,借助人类大脑的想象与整合能力,重新进入档案形成者的视角,还原档案形成场景以及档案文本内容所记录的机构、人物和事件等信息。到了人工智能时代,要让机器理解档案内容,就必须按照机器擅长处理的形式化逻辑重构档案资源体系,主要完成以下任务:第一,把档案的自然语言文本转换为机器能够高效处理的结构化数据集;第二,把档案形成场景的相关信息以结构化数据的形式记录下来;第三,把档案文本所指代实体对象的各类背景知识以标引方式输入机器,使其具备关联推理能力[9]。“历史档案数据化整理”本质上是用机器的形式化逻辑重构资源体系,以数据形式还原历史场景和语境的过程,中文历史档案数据化整理的技术框架如图1所示。
图1 中文历史档案数据化整理的技术框架
中文历史档案数据化整理的最高目标是构建历史档案的可信数据替身(Trusted Data-based Surrogate,TDS),使计算机在不用访问档案原件或者数字扫描件的情况下,仅依靠对应的结构化数据集的访问就能精准理解档案的背景信息和核心内容,从而可以通过细粒度、高精准信息服务方式精准响应用户的检索需求,为各类数据驱动的语义计算和逻辑推理类应用提供基础资源支持。每一份历史档案都不是孤立存在的,而是其载体、内容信息、背景信息和语境信息的集合体,历史档案的数据化整理致力于将这些信息解析出来并采用某种计算机能够理解的形式进行描述和表示。因此,历史档案数据化整理需要将档案文本所蕴含的语义信息解构为若干单一维度的信息,再通过数据聚合形成多维度兼顾的立体化关联数据集。上述过程需要在以下两类特定基础设施支撑下才能完成:第一类,语境数据基础设施(Contextual Data Infrastructure,CDI)属于对历史静态结构的模拟,主要提供特定时空当中存在过的各类实体、相互关系及其背景知识;第二类,逻辑数据基础设施(Logic Data Infrastructure,LDI)属于对历史动态过程的模拟,主要提供人类社会生活场景结构、事件叙事结构和文本逻辑结构共性规律的相关知识。在语境数据基础设施当中,为了解决档案文本自然语言符号系统复杂性可能造成的歧义理解问题,平台应当建立命名实体唯一标识符(Unique Identifier of Named Entities,UIDNE)的统一编码和标引机制。因此,历史档案的数据化整理本质上是一种形式化模拟:档案文本用框架式数据集模拟,档案形成背景用背景元数据模拟,档案文本指代的各类命名实体用语境数据基础设施模拟,档案文本映射的场景或事件结构由逻辑数据基础设施模拟。
2.2 中文历史档案数据化整理的参考模型
中文历史档案数据化整理的成果体现为支撑智能利用和历史计算的大规模档案数据集,本文将其称为“中文历史档案大数据基础设施”(Chinese History Big Data Infrastructure,CHBDI)。中文历史档案数据化整理本质上是对大量历史档案进行形式化描述并将结果关联聚合成为历史大数据体系的过程,是信息集成技术在历史档案整理领域的应用。目前,在信息集成领域,联邦组织架构框架(Federal Enterprise Architecture Framework,FEAF)是一种被广泛认可的顶层设计方法。FEAF方法采用自上而下的思维模式,基于层次支撑原理,将信息资源集成体系依次划分为绩效参考模型、业务参考模型、业务组件参考模型、数据参考模型和技术参考模型五层[10]。本文参照FEAF方法设计的“中文历史档案大数据基础设施”技术参考模型CHBDI/RM 如图2所示。
图2 “中文历史档案大数据基础设施”参考模型CHBDI/RM
图2中,“中文历史档案数据基础设施”参考模型采用信息工程学模块化结构设计,整体上由三横两纵共四类功能模块组成:第一类,档案资源层,即中国历史上已经形成的各类载体的历史档案资源,其中绝大部分为纸质档案,也有部分档案管理机构已经通过数字化扫描加工获得档案电子扫描件。第二类,档案数据层,即通过对档案及其背景、结构、内容信息的形式化描述而得到的各类结构化数据集,可以分为数据基础设施和历史档案著录数据集两类,前者包括中文历史档案语境数据基础设施、中文历史档案逻辑数据基础设施和中文历史档案数据关联集成中枢;后者体现为框架式数据集,由背景类数据项、结构类数据项和内容类数据项构成。其中,背景类数据项主要体现为对档案形成背景相关信息的结构化描述;结构类数据项主要体现为嵌入档案数据集中的结构标签;内容类数据项依托叙事框架对档案文本内容进行结构化描述,是整个历史档案著录数据集中数据量最大的部分。由此可以发现,档案数据化阶段的数据项与档案计算机管理阶段生成的目录数据和档案数字化加工阶段生成的档案元数据部分数据项是兼容的,可以借助已有目录数据集进行复用。所有的档案著录数据集参照语境基础设施、逻辑基础设施进行叙事框架选取和命名实体标引之后发布到数据关联聚合中枢,实现历史档案数据资源的一体化整合。各类历史档案数据集在物理上是分散的,在逻辑上是高度集中的,可以像在同一数据空间一样进行访问。第三类,档案服务层,主要基于中文历史档案大数据平台,面向社会大众和各类智能应用提供可信历史计算和智能服务。第四类,档案保障层,主要是为档案数字化加工和档案数据化转换提供支撑和保障,包括“可信保障体系”和“标准规范体系”两大部分。其中,“可信保障体系”主要通过对历史档案数字化加工和数据化整理过程中的各类流程风险进行控制,确保最终汇入数据开放关联中枢的档案数据与历史档案文本所呈现的原始信息是一致的,保障用户从中心平台检索到的数据都有可靠的原始档案文本进行佐证,历史计算结果反映了历史发展的客观事实,可以作为可信结论直接引用。“标准规范体系”主要为历史档案数据化整理各个环节提供技术标准和管理规范支持。上述四类模块相互支撑,共同保障可信历史计算与智能服务平台的可靠运行,确保用户可以直接享受可信档案数据服务而不用关心其技术实现过程。
2.3 中文历史档案数据化整理的基础设施
相对于“档案数字化”阶段的文件级数据编目任务,“档案数据化”阶段涉及的数据类型更为复杂多样,尤其是要实现档案文本语义信息的形式化表示,并与领域本体对应命名实体建立关联,所面对的是一个相互关联的立体化数据生态系统,其复杂程度要数倍于粗粒度档案文件信息著录。相比历史档案的数字化加工,历史档案的数据化整理涉及的基础资源更为复杂多样,通常情况下难以由单一机构在本部门内部完成。例如,要对历史档案的相关数据进行唯一标识符标引,就必须以建成的公共基础知识库为依托。如果由档案管理机构分头进行参照体系设计开发,则难以保障同一实体对象对应的唯一标识符编码是一致的。中文历史档案数据化整理工作依托的技术标准要发挥作用主要通过两种途径:一是构建致力于对数据化过程进行规范控制的标准制度体系,二是将标准化要求融入基础设施平台,通过为档案数据化加工提供技术平台支撑,确保工作成果的规范性。因此,为数据标引提供语义参照的基础设施建设也是中文历史档案数据化整理标准体系建设的重要任务。中文历史档案数据化整理基础设施平台需要参照史籍、方志、文物、遗址等多种史料,综合借鉴现有人文数据库以及历史学研究的可靠学术成果进行建设,初期完成基础性知识和高频命名实体对象的结构化建模,在后期使用过程中通过不断融入新数据进行补充完善,直到基础设施足以覆盖绝大多数命名实体相关背景知识时,就可以为涉及这些命名实体的其他历史档案提供数据标引服务。
中文历史档案大数据基础设施是从理论视角出发,对我国历史档案数据化整理的目标模式做出总体性、战略性的规划。作为公共性、基础性、整体性、可靠性、开放性特征的服务设施[11],中文历史档案大数据基础设施CHBDI/RM的建设运营需要符合以下特征:第一,历史档案大数据基础设施的服务对象主要为历史研究者和其他有历史档案内容查证需求的人,理论上应该覆盖所有对历史档案有利用需求的公民群体;第二,历史档案大数据基础设施并不是为单一场景提供数据支持,而是为整个社会所有依托历史档案的各类应用系统提供支撑,是人工智能时代进行历史文化研究不可或缺的工具性服务设施;第三,历史档案大数据基础设施为人类用户或智能设备所提供的应该是高度集成之后的数据服务,因历史档案来源机构、载体形态、语言文字、平台架构等方面差异性造成的信息分割现象已经被一体化的数据平台所打破,用户通过单一平台或单一接口就能获取领域内几乎所有可利用档案资源的相关数据服务;第四,历史档案大数据基础设施为用户提供的是基于历史档案的数据服务。大多数情况下用户并不需要查阅来源档案或其数字扫描件,只有确保档案数据化加工过程明晰可控,由数据化加工转换而来的数据集能可靠地反映档案形成者通过文本所要传递的原始信息,历史档案大数据基础设施才具有被用户信任的逻辑基础;第五,历史档案大数据基础设施建设并不是一蹴而就的,而是基于开放性架构,立足历史档案数量分布的实际状况和数据化利用需求,不断从新的历史档案中抽取数据并补充完善基础数据集的动态过程。
3 阻力与策略
中文历史档案数据化整理是档案信息化建设的“深水区”,面临的问题更为复杂多样,需要档案工作者立足实际,通过多样化的实践模式逐步推进,最终实现全局性历史大数据体系的建设目标。
3.1 中文历史档案数据化整理的现实阻力
就理论而言,我国历史上形成的海量档案资源进行数据化转换之后就可以形成可供多维度分析利用的历史档案大数据基础设施,然而现实是,这一宏伟目标要实现面临着来自多方面因素的制约。
第一,历史档案数量分布的非均衡性对档案数据化的制约。大数据技术通常只有在来源数据相对完备,并且接近理论样本总量的时候才会奏效。然而,受多种因素的影响,我国历史上遗留至今的一手档案的数量分布极度不平衡,明清和民国时期相对较多,之前的朝代可供研究的史料较少,有些资料甚至只能从史籍当中获取,大规模成体系的一手档案史料近乎没有。也就是说,基于我国现存历史档案进行数据化整理,注定形成的大数据体系中某些时间段的数据是残缺不全的。
第二,历史档案数据化整理对数字化加工成果的依赖性。数据化整理通常是在数字化加工成果的基础上进行的。经过数字化加工,档案目录数据和档案文字识别成果均可以在数据化整理过程中发挥重要作用,否则需要从头开始对数字化加工阶段进行“补课”,面临的整体工作量将更为庞大。
第三,历史档案内容复杂性对档案数据化的制约。由于历史档案属于未经深加工的一手史料,标准化程度较低,字迹辨识、校核、转录对领域专家的依赖程度较高,数据编目时还可能存在字库未收入字符的计算机录入问题。同时,由于档案形成者视角的差异性,针对同一事件的记录可能不一致甚至是相互冲突的,转换为数据时采用哪一种方案需进一步确认。在整理少数民族文字历史档案时,还需将少数民族文字翻译为国家通用语言文字,整理难度进一步增加。
第四,历史档案数据化整理的基础设施依赖性特征。历史档案数字化项目可以由机构单独启动,只需遵循国家标准和行业标准,对外部资源的依赖程度不高。然而,到了数据化整理阶段,缺少语境基础设施提供的实体唯一标识符编码和标引服务,历史大数据的关联标引机制就无法实现。
第五,历史档案数据化整理的高成本与其海量特征之间的矛盾。历史档案数字化的核心任务是计算机扫描,编目数据量相对较小。然而,到了历史档案数据化阶段,核心任务变成对人工依赖程度较高的多层级框架式档案数据编目,即便是短短的一段文字要转换为框架式数据集都需要耗费工作人员相当长的时间和精力,对于动辄千万数据级的历史档案数据化整理而言,所需要的整体成本惊人,是短期内难以完成的任务。除此之外,中文历史档案数据化整理还面临着巨额经费投入、需要大量熟悉历史同时又懂技术的专业人才作为支撑的问题,对我国历史档案管理机构的现有经济、技术、人才实力均提出了严峻挑战。
3.2 中文历史档案数据化整理的实践策略
针对中文历史档案数据化整理面临的种种现实阻力,本文提出如下实践策略。
第一,“远景规划”策略。尽管历史档案数据化整理目前困难重重,但是人工智能时代的崛起和历史档案的智能化利用需求决定了进行历史档案数据化整理是大势所趋,是未来必然要面对和实践的问题。为此,国家档案行政部门应当顺势而为,制定中文历史档案数据化整理领域的远景规划,明确通过长期努力,分阶段分步骤建设历史大数据体系的长远目标以及实现目标的整体思路。
第二,“标准先行”策略。中文历史档案数据化整理工作的标准化采用的是“自上而下”的实践路径,需要在大范围实践尚未开展之前,通过小范围研究、实验和试点,将中文历史档案数据化整理过程中涉及的各类数据规范、流程规范和质量规范固化为标准文本,供相关机构和个人参考。
第三,“超前布局”策略。在中文历史档案数据化整理实践还未大规模展开的情况下,国家档案行政部门应当尽早开展“中文历史档案命名实体唯一标识符编码与管理中心”“中文历史档案统一时间标尺”“中文历史档案地名知识库”“中文历史档案机构知识库”“中文历史档案个人知识库”“中文历史档案共性叙事结构基础库”等数据基础设施的研究与建设,通过网络平台提供参照和标引服务,从一开始就为数据化整理构建规范统一的“数据空间”,确保各级各类历史档案管理机构在继续数据化整理实践时,生成的数据在逻辑上是同构的,具备进一步整合共享的逻辑基础。
第四,“存量优先”策略。尽管理论上存在贯通中国历史的大数据基础架构,但受历史档案实际存量的制约,在进行数据化整理时,重点只能放在档案数量较大且类型多样、主题丰富的历史档案方面。因此,中文历史档案数据化整理工作的切入点应当是距离当前相对较近的民国历史档案和清代历史档案,之前的历史时期如果现存的历史档案较少,相关数据主要作为语义参照体系使用。
第五,“分级管理”策略。针对历史档案的背景、结构和内容进行全面数据化加工是数据化整理的理想化模式,在时间成本和人力资源储备等条件都不具备的情况下,允许适度降低数据化深度,例如只标注档案文本提及的时间、地名、机构名、人名等关键性信息的唯一标识符,暂时对档案涉及复杂叙事逻辑的结构化描述问题不予关注,可以在牺牲数据质量的前提下大幅度降低工作难度。
第六,“数据岛”策略。在全国范围内整体性的历史档案整理没有推开之前,应当鼓励部分历史档案存量较大的地方档案管理机构开展数据化整理的试点性实践,在遵循统一数据规范的前提下,形成的历史数据集在本质上属于“数据岛”,有待通过全国性的协调机构建立数据中枢进行整合。
第七,“AI赋能”策略。针对中文历史档案数量特征与数据化整理成本之间的矛盾,学界和业界应积极探索深度机器学习技术在档案数据化领域的应用,尽可能通过一定数量的样本训练,将领域专家所掌握的知识技能外化为数据模型,从而使同类历史档案整理工作可交由机器完成[12]。
4 结语
中文历史档案数据化整理是面向人工智能社会历史档案资源智能化开发利用需求而提出的一种战略构想和技术框架,其最高目标是建设集成式大数据平台,减少历史档案实体分散性和内容碎片化对用户整体性利用行为的制约,使历史研究者可以借助大数据平台所提供的基础资源和分析挖掘工具进行复杂性历史问题的研究与探索,使社会大众可以通过平台便捷获取档案内容信息,无需逐一查阅相关档案,同时为与历史文化信息相关的各类智能化应用提供基础数据资源支撑。作为一项复杂的系统工程,中文历史档案数据化整理还面临较多的阻力和挑战,有待我国第一历史档案馆、第二历史档案馆和地方各级档案管理机构、历史文献研究机构和相关领域研究人员提前规划,积极探索,分层次、有重点地推进,经过长期积累最终建成可以支持可信历史计算的大数据平台。
参考文献
[1]肖恩·格雷厄姆,伊恩·米利根,斯科特·魏因加特.探索历史大数据:历史学家的宏观视角[M].梁君英,译.杭州:浙江大学出版社,2019:1-3.
[2]梁继红.走向文本的历史档案数字整理:历史追溯与时代转型(下)[J].档案学通讯,2022(1):60-66.
[3]西藏自治区档案馆.西藏历史档案荟萃[M].北京:文物出版社,1995:1-3.
[4]何庄.历史档案时间分布的特征及成因[J].档案学通讯,2009(2):88-92.
[5]屈六生.我国历史档案的翻译工作刍议[J].档案学研究,1991(2):62-66.
[6]赵彦昌.中国古代档案管理制度研究[M].北京:人民出版社,2011:2.
[7]梁继红,李小静.历史档案文本数据化的方法论基础:面向文种的古文书学[J].档案学通讯,2023(3):106-112.
[8]祁天娇.从历史档案到历史大数据:基于威尼斯时光机十年路径的探索[J].中国图书馆学报,2022(5):116-129.
[9]赵生辉,胡莹,宋和平.档案文本语境知识库建设理论与实践研究[J].档案学研究,2023(1):132-139.
[10]王珲,周汝胜,周杰,等.基于FEAF方法体系的交通运输信息化顶层设计研究[J].物流技术,2015(22):117-120.
[11]钱毅,苏依纹.基于档案的数据基础设施(ABDI)的概念内涵与构建策略[J].档案学通讯,2023(6):52-60.
[12]杨建梁,刘越男.机器学习在档案管理中的应用:进展与挑战[J].档案学通讯,2019(6):48-56.
【作者简介】赵生辉(1977—),男,汉族,陕西宝鸡人,苏州城市学院城市治理与公共事务学院教授,博士,研究方向:计算档案学;徐丹丹(1992—),女,汉族,吉林德惠人,苏州城市学院城市治理与公共事务学院讲师,硕士,研究方向:档案资源开发;马藤(1990—),男,汉族,山西大同人,苏州城市学院城市治理与公共事务学院讲师,博士,研究方向:地方历史文献。