发布时间:2024-10-24 08:27:45被阅览数:76 次信息来源:《山西档案》
作者:赵生辉 徐丹丹 马藤
摘要:基于微观主义视角,解析计算问题的技术原理和档案资源的逻辑结构,构建档案计算的技术范式框架,为计算档案学的学科结构研究提供参考。计算本质上是人类以计算机为中介和工具完成对现实世界问题的认知并作出判断决策的过程。档案逻辑单元分为“语境”“来源”“文件”“文本”“事件”“场景”“实体”和“记录因子”。“档案计算”分为“档案文件计算”“档案文本计算”“档案语境计算”“档案语义计算”和“档案集成计算”共5种相互关联的技术范式。
关键词:计算档案学;档案计算;技术范式;大数据
自21世纪10年代以来,大数据技术的广泛应用、数字人文浪潮的快速推进和数据密集型科学研究范式的兴起使得人文社会科学的学者可以利用计算机处理本学科的大规模学术资料以寻求研究的创新和突破,“计算历史学”“计算政治学”“计算法学”“计算新闻学”等带有鲜明数据驱动特征的新兴学科陆续出现。计算档案学(Computational Archival Science)正是在这种社会背景下被提出的。计算档案学的奠基人为美国马里兰大学信息学院的理查德·马西亚诺(Richard Marciano),他在2016年至2018年期间先后3次召集相关领域专家学者召开计算档案学专题研讨会,逐步明确了计算档案学的定义和特征,为计算档案学的创立作出了重要贡献。计算档案学的概念经过浙江大学傅天珍和郑江平["介绍到我国档案学界之后立即吸引了国内学者的关注和讨论,刘越男等[2]、于英香等[3]、周文泓等[4]、赵跃等[5]先后就计算档案学的提出背景、出场逻辑、内涵演化、学科特征、建构路径、发展策略等问题发表各自的见解,为计算档案学在我国的建立提供了诸多建设性意见。此外,苏芳荔[6]、詹其港[7]等探讨了计算档案学课程教育体系的构建问题,还有多名学者先后参与计算档案学建设发展的学术讨论。目前,计算档案学作为与大数据、人工智能等现代信息技术紧密联系的学科术语已经被大多数学者接受,众多基于计算方法的档案数字人文研究项目正在推进当中。总体而言,无论是国内还是国外,计算档案学研究都处于起步之后的基础探索阶段,对作为学科核心科学问题的“档案计算”的研究还不够深入,相对系统完整的学科理论框架尚未完全形成。本文基于微观主义视角,分别解析计算问题的技术原理和档案资源的逻辑结构,根据上述两个维度内容要素的逻辑组合,构建“档案计算”问题的技术范式框架,为计算档案学的学科结构研究提供参照。
1 计算问题的技术原理
“计算”一词原本是数学术语,英国数学家阿兰·图灵(Alan Turing)1936年在其论文《论可计算数及在判定问题上的应用》中详细论证了“可计算”问题的外在特征[8]。尽管计算档案学提出时,人类社会的技术环境已发生巨大变化,但是计算问题的本质及其遵循的技术逻辑仍是一致的。
1.1“计算”的本质属性
计算(Computation)通常是指机器在有限的时间内,按照特定的数学运算规则,对特定结构类型的数据进行加工并给出运算结果的过程。1967年,奥地利哲学家波普尔(Karl Popper)提出著名的“三个世界”理论[9],将世界划分为“世界1(物理世界)”“世界2(精神世界)”和“世界3(本体世界)”3部分。信息工程学领域的学者参照这一框架将世界划分为“现实世界”“信息世界”和“机器世界”3种。其中,现实世界即客观存在的物理世界;信息世界是现实世界在人类思维空间映射的结果,本质上是人类对现实世界认知程度的一种反映;机器世界是机器运算的结构化逻辑对现实世界进行逻辑建模的结果。作为人类智力结构的“计算”(Caculate)体现的是“现实世界”与“信息世界”之间的互动关系。电子计算机的发明使得人类的计算能力可以整体迁移到计算工具当中,并以远超人类心智计算速度和精确性的方式驱动计算进程,带来人类社会生活方式的巨大改变,电子计算机的发明也使得信息处理由“信息世界”进一步拓展到“机器世界”。从此,人类对现实世界的认知不仅依靠自身的理解和各类纸质信息,而且更多需要依靠计算机当中所映射的物理世界的各类信息,“计算”问题的本质属性如图1所示。
图1 “计算”问题的本质属性
图1当中,信息处理拓展到“机器世界”之后,人们在计算机信息空间构建物理世界各类问题的数学模型,通过对数学模型的运算间接实现对物理世界的认知并据此作出各类判断和决策。因此,“计算”本质上是人类以计算机为中介和工具实现对现实世界的认知并据此作出判断和决策的过程。
档案并不是孤立存在的文本序列,而是以多种类型逻辑单元相互关联、相互作用的形式存在的复杂信息集合体,上述8个颗粒度等级逻辑单元之间的关系如图2所示。
图2 档案逻辑单元组合模型
图2当中,“档案文件”是传统档案管理所依托的主要类型,致力于通过编目或元数据著录来完成对档案文件内容信息、背景信息和结构信息的全面描述及管控。文件级档案逻辑单元向上,需要描述文件形成机构、形成个人以及形成过程的来源信息,信息量和复杂性随之增加。“档案语境”相当于大量档案文件内容信息的集合,结构和规模呈指数级增长。文件级档案逻辑单元向下,需要对单一档案文本的内容信息进行持续性模块划分,由较大模块的文本单元细化到叙事框架、场景框架、实体要素,最终细化到表示实体属性关系的记录因子,从而将档案文本分解为无法继续细分的“原子型”语义颗粒。“文件级档案逻辑单元”的向上集成,意味着档案管理的基本信息单元的范畴持续增大,档案内容信息的一体化程度不断增加;“文件级档案逻辑单元”向下细分,意味着档案管理的基本信息单元范畴持续变小,档案管理的精细化程度随之增加。档案文件内部语义信息的精细化与档案文件之间语义信息的集成化是并行不悖的两种创新路径。大规模、精细化、可计算的数据生态体系将会是从根本上对小规模、粗粒度档案文件级管理服务体系的一次重组和再造。
2.2 档案逻辑单元的内涵解释
档案语境(Archival Context)[11]。档案形成者和档案利用者都是在特定时空当中存在并参与社会实践活动的人,双方对于所处社会的时间、地点、建筑、机构、人物、事件逻辑等方面的信息存在共识性的理解,这些对档案形成具有影响的各类社会因素的总和就是档案的“语境”(Context)。单一档案文件的“语境”是档案文本所提及的相关社会要素的背景信息,大量档案文件的语境信息融合在一起所呈现的就是特定时空当中社会系统运行的全貌。语境级档案逻辑单元主要通过档案文本的逆向推理同时综合图书、文物等多维度信息建设“语境知识基础设施”(Contextual Knowledge Infrastructure,CKI)。语境知识基础设施可以为其他等级的逻辑单元提供逻辑参照,如果用户只关心档案内容而不关心其来源时,也可以从语境知识基础设施当中直接获取相关信息。
档案来源(Archival Origin)。关注和重视来源是档案管理有别于图书情报管理的重要特征[12]。“来源”有两种理解:一是形成档案的社会组织或个人;二是档案文件形成与流转的社会背景,即档案文件是在何种社会背景之下,由哪个机构或个人在何时出于何种目的进行创建,经历了哪些业务流程和管理流程,最后由哪个机构归档整理和保管。通过来源信息,人们可以了解档案文件产生的来龙去脉,从而更为客观地理解档案文本当中提及的内容信息。任何一份档案都是有来源的,只不过有的档案文件通过业务表格详细记录了相关背景信息,大多数档案缺少来源信息或者来源信息不完整。档案文件的来源级逻辑单元主要通过两种方式体现:一是建立在语境知识基础设施平台上的档案形成机构或个人的本体数据集;二是描述档案形成过程的管理元数据。
档案文件(Archival File)。文件是纸质档案管理的主要信息单元,档案归档、整序和检索都是以文件作为基本信息单元的,即使到电子文件管理阶段,档案管理的基本信息单元还是文件。文件级档案逻辑单元主要通过档案编目或元数据著录来实现,生成的档案文件目录或元数据记录集是实现文件级档案计算的核心资源,文件级档案编目主要关注档案文件的外在特征和内容特征,可以将形成档案的背景信息作为著录对象的组成部分嵌入元数据框架。
档案文本(Archival Text)。档案文本即附着于档案载体上的记录文字或符号序列,通常需要通过人工识读转录或机器自动识别等方式获取。如果档案原始文字符号采用的是非通用语言文字,还要将其转换为与当代社会通用语言文字对应的符号。档案文本是一种可以直接作为计算对象的语义资源,通过对构成文本的字词句的统计规律可以间接反映某种客观存在的规律性。实践当中,为了提高信息检索的效率,也可以将体现同类型档案文本篇章结构规律的语义标签嵌入文本,将纯文本符号序列切分为若干模块,从而使文本检索的范围可以限定在模块之内。同类型档案文本的结构语义框架是实现文本结构化的逻辑参照资源,由于其针对的是符号序列之间的平面逻辑关系,尚未深入文本背后的语义逻辑,因而也将其划分为文本级逻辑单元。
档案事件(Archival Event)。叙事性是档案区别于其他信息资源的典型特征。绝大多数档案主题相对集中,重点记录某一类社会活动开始、发展、推进、结束的完整过程,即通过自然语言文本实现的叙事(EventNarration)。事件是围绕同一主题进行的一组有序社会活动及其场景的集合,例如“发文类事件”通常需要经历“拟稿”“核稿”“签发”“印制”“用印”“分发”等流程,这种规律性不会因时间、地点和机构的不同而呈现出差异性。事件级的逻辑单元主要参照“事理语义框架”进行著录,将采用自然语言叙事的事件过程表达为框架式的档案叙事数据集。
档案场景(Archival Scenery)。场景是指人类社会活动当中相关各方的角色及其互动关系,例如“交易类”场景可以分为“交易时间”“交易地点”“买方”“卖方”“交易物”“价格”等要素。人类的社会活动可以细分为若干事件,事件又可细分为若干场景,场景再细分为若干要素,共同完成档案文本内容的结构化建模。场景级逻辑单元通过“场景语义框架”来体现,建立在大量档案文本场景建模基础上的语义框架是对人类社会同类场景逻辑关系的结构化模型,参照标准化场景语义框架进行场景语义信息描述的档案数据集具备相互参照计算的逻辑基础。
档案实体(ArchivalEntities)。实体即现实世界客观存在的事物,此处的实体是指档案内容所指向的语义实体,而不是作为档案载体与符号集合的客观实体。其中,被人类赋予特定名称符号以相互区分的实体被称为命名实体(Named Entities)。命名实体主要分为时间表达式、地名、人名、机构名、建筑名、器物名和概念名等类型。现实世界中独立存在、可以相互区分的实体在信息空间中需要被赋予各自的唯一标识符(Unique Identifier,UID),实体的属性和关系通常是参照命名实体的唯一标识符进行的。为此,需要在档案语境知识基础设施建设过程中,建立一体化的UID编码机制,确保使用相同名称而相互独立的实体可以通过UID进行区分。
档案记录因子(Archival Record Factors)。记录因子[13]是参照知识元(Knowledge Element)提出的档案学新概念,是对人类社会活动单一维度、最小颗粒的描述,是不可分割的独立记录单元,是构成档案内容的基本语义颗粒。记录因子是对实体属性或关系的形式化描述结果。记录因子基于资源描述框架(Resource Description Frame,RDF)的语义三元组格式进行描述,例如IsKindOf用来陈述类属关系、Is Member Of用来陈述成员关系,Have Name Of用来陈述名称关系,Have Works Of用来陈述作品关系等。每个记录因子只能陈述一个事实,档案文本当中的复杂语义关系由多个记录因子和叙事框架相互配合才能完成档案文本的等义描述。档案主题千差万别,基本语义关系是一致的,用来描述的记录因子就是一致的。例如,档案文本“白居易做《太湖石记》”和“达尔文出版了《物种起源》”在潜在逻辑上一致,都可以使用Have Works Of进行描述。
3 档案计算的范式框架
档案作为人类社会实践活动的原始记录,绝大多数是由形成者使用某种自然语言文字或符号形成的。档案数字化可以通过光学扫描生成档案的数字图像,甚至可以进一步通过字符识别生成档案文本,但是总体上都是为人工阅读提供支撑,计算机并不能真正理解图像或文字的含义,因而难以对其内容进行精准计算。要从根本上改变档案信息服务模式,就必须将档案转换为某种符合数理逻辑的结构化形态。例如,通过元数据著录将档案的背景信息、外在特征和内容特征抽取出来并表达为关系型数据记录。再如,对档案文本进行语义标注,从而使计算机可以借助标签在多个层面上实现语义计算。因此,除数据态档案之外的大多数传统档案的原件是不具备可计算性的,必须将其转换为某种结构的数据才能被计算。档案数据资源一旦形成,就与档案原件之间建立了指代与被指代关系,除了必须查证原件的需求之外,档案数据大多数情况下可以替代原件参与计算。
3.1 “档案计算”的内涵界定
“档案计算”(Archival Computing)是参照某种数学模型将档案转换为结构化资源并在计算机当中进行分析处理的技术活动。计算档案学中的“计算”具有以下特征:第一,“档案计算”不是人类思维过程中的“心智计算”(Caculate),而是借助计算机等智能信息工具完成现实事物属性关系特征处理的机器运算过程;第二,“档案计算”大多数情况下并不是指小规模的科学计算,而是基于大规模档案信息资源的深度挖掘的智能型计算,即大数据量级的档案数据加工运算过程。第三,“档案计算”强调计算过程,但是“计算”过程本身并不能孤立存在。机器“计算”是以数理逻辑为基础的,所以计算之前需要将不符合数理逻辑的研究对象转换为某种计算机可以高效处理的结构化数据资源,即“数据化”等预处理是“计算”得以实现的前提条件。第四,“档案计算”并不是单纯的技术活动。“计算”是机器自动化运算的过程,但是任何计算都不可能自发进行,用户需求形式化表达,数据资源准备和算法设计,计算结果解读及相关决策都离不开人工因素的参与。
3.2 “档案计算”的技术范式
范式(Paradigm)是美国科技史学家托马斯·库恩(Thomas Samuel Kuhn)1962年在其著作《科学革命的结构》[14](The Structure of Scientific Revolutions)当中提出的学术概念。所谓范式,通常是指科学家共同接受的一组假说、理论、准则和方法的总和。科学范式会对科研人员的研究方向起到引导和规范作用的同时也会在某种程度上对其思想形成制约。当范式针对的核心科学问题已经解决或者环境已经发生了较为重大的变化导致原有的范式难以解释新的现象,新的科学范式就会出现,科学革命随之发生。计算档案学的出现,意味着档案管理从粗粒度的档案文件管理向细粒度的档案数据服务转型,多源异构档案资源将逐渐走向集中,最终通过数据集成融合为统一的逻辑整体,有关历史进程的大部分可靠信息可以直接获取。计算档案学视域下的“计算”以档案为加工处理的对象,参照档案逻辑单元之间的组合关系,本文将“档案计算”划分为5大技术范式,如图3所示。
图3 “档案计算”的技术范式框架
图3当中,“档案数字化”和“档案数据化”属于预处理环节,“档案计算”属于核心机器运算环节。“档案计算”的技术范式分为“档案文件计算范式”“档案文本计算范式”“档案语境计算范式”“档案语义计算范式”和“档案集成计算范式”共五类,前四类针对不同颗粒度的档案逻辑单元进行解构、建模和运算,“档案集成计算范式”是综合档案计算范式之后向用户和智能应用提供智能档案服务时的综合性技术范式,也是档案计算的输出环节,其内涵如下。
档案文件计算范式(Archival File Computing)。档案文件计算是以文件(File)作为基本逻辑单元进行的档案资源计算范式,主要通过元数据著录将文件的形成背景、外在特征和内容特征表达为计算机擅长处理的关系数据记录,为用户查找档案文件提供线索,用户需要逐一阅读档案以判断内容的适用性。档案文件计算是对档案计算机编目和电子文件元数据著录的另一种表述,相对具有较为成熟的理论基础支撑和标准规范参照。与档案来源、档案形成背景相关的各类信息通常以来源数据项或业务数据项的形式嵌入元数据框架,成为档案文件计算任务的组成部分。
档案文本计算范式(Archival Text Computing)。档案文本计算是以档案文本符号为基本逻辑单元的档案资源计算范式。“文本计算”和“数据计算”的区别在于文本计算只关注档案文本当中各类自然语言文字符号的分布规律,相对忽视文字符号与所指代语义对象之间的关联关系。档案文本计算的典型方法是词频统计分析,通常只关注词汇出现的次数而不用考虑具体的情境。
档案语境计算范式(Archival Context Computing)。档案语境计算是面向“档案语境知识基础设施”建设的档案资源计算范式[15],主要通过档案文本语义信息集成,同时参照多来源史料信息,构建区域历史的数据本体模型,为档案数据加工、文本分析等应用提供基础语义参照体系。档案形成机构或个人的相关背景信息可以纳入语境知识基础设施。此外,语境知识基础设施还需要为全局提供一体化的命名实体唯一标识符编码机制,从而确保多种类型的档案计算结果在逻辑层面是一致的。
档案语义计算范式(Archival Semantic Computing)。档案语义计算范式是以档案所蕴含的语义信息作为基本逻辑单元的档案资源计算范式。档案语义计算致力于将档案自然语言文本所蕴含的语义信息表达为逻辑上基本等义却具有结构化形态的数据资源,从而使计算机可以通过对语义数据集的访问替代对档案文本的访问,满足用户对细粒度、高精准、智能化档案信息服务的需求。档案语义计算的实现形式多样,档案所蕴含的空间地理信息可以基于历史地理信息系统HGIS实现、建筑信息可以基于历史建筑信息模型HBIM实现、社会信息可以基于历史关系网络HRN来实现。
档案集成计算范式(Integrated Archive Computing)。档案集成计算范式是综合各类档案计算范式之后向用户提供的一体化计算范式。在将档案的内容信息分解为各个层级逻辑单元并实现重组的情况下,用户可以直接获取档案的内容信息而不必关心内容数据的档案文件来源,档案集成计算范式是在大数据环境下从大规模数据集当中发现新知识或新模式的过程。
3.3 “档案计算”的范式关系
“档案计算”技术范式的演进是遵循“层级递进”规律的,“档案文本计算”和“档案语义计算”建立在“档案文件计算”的基础之上,“档案语境计算”是与“档案语义计算”同步推进的技术范式,按照“边建设,边应用”的模式进行推进。其中,“档案数字化”和“档案数据化”是为“档案计算”准备基础数据资源的预处理环节。计算机辅助档案编目和电子文件元数据著录等环节属于档案文件计算范式,作为档案计算的技术范式之一将会长期存在并发挥重要作用。档案计算范式相互关联、相互交叉、相互融合,致力于为用户构建一体化、智能化的历史问题分析和研究平台,为“档案集成计算范式”的实现提供基础支撑。需要说明的是,档案计算范式的划分并没有完全确定标准,其边界并不是绝对的,例如档案语境计算也需要从档案文件计算、档案文本计算、档案语义计算等阶段的工作成果当中抽取数据;档案文本计算的结果也可能应用于档案文件检索;档案文件计算所依托的元数据集也可以通过语义标注具有智能化检索的特征;档案语义计算始终要以“档案语境知识基础设施”所提供的时间、地点、机构、人物、事件等基础信息作为参照。因此,在实践当中,“档案计算”意味着根据需求进行范式组合,综合各类技术范式的优缺点,设计最能满足用户需求、最有助于实现档案集成计算的技术范式。
4 结语
“计算”问题本质上是人类以计算机为中介和工具实现对现实世界的认知并据此做出判断和决策的过程,致力于将物理世界的真实问题通过形式化方法表达为某一类计算机擅长处理的数学模型,以便人们可以借助数学模型理解和掌握物理世界现实问题的关键信息和解决方案。档案逻辑单元划分为“语境”“来源”“文件”“文本”“事件”“场景”“实体”和“记录因子”共计8个等级,每个等级面向不同类型的档案信息加工对象。档案计算的技术范式分为“档案文件计算范式”“档案文本计算范式”“档案语境计算范式”“档案语义计算范式”和“档案集成计算范式”共5种相互关联的技术范式。
参考文献
[1]傅天珍,郑江平。计算档案学的兴起、探索与启示[J].档案学通讯,2019(4:28-33.
[2]刘越男,杨建梁,何思源,等.计算档案学:档案学科的新发展[J].图书情报知识,2021(3):4-13.
[3]于英香,刘茜:论计算档案学的出场逻辑[J].档案学通讯,2021(5):22-31.
[4]周文泓,代林序,祁天娇,新文科背景下计算档案学的发展策略研究[J].档案学研究,2022(1):22-29.
[5]赵跃,马晓玥,张佳欣.中国计算档案学发展的SWOT分析与策略研究[J].图书情报工作,2022(4)56-66.
[6]苏芳荔.计算思维在档案学教育中的应用[J].兰台世界,2019(12):79-81.
[7]詹其港.计算档案学课程建设及思考:基于马里兰大学计算档案学课程教育的分析[J].档案管理,2022(1):62-65.
[8]马晓敏.大学计算机基础[M].北京:中国铁道出版社,2022:9-10.
[9]王伯鲁.技术究竟是什么?广义技术世界的理论解释[M].北京:科学出版社,2006:121.
[10]朱林,吴兆文.数字信息资源管理研究[M].北京:世界图书出版公司,2012:73.
[11]赵生辉,胡莹,宋和平,档案文本语境知识库建设理论与实践研究[J].档案学研究,2023(1):132-139.
[12]黄世喆.档案整理:从事由原则到来源原则的演进[J].档案学通讯,2009(2):22-25.
[13]赵生辉,胡莹档案数据化底层逻辑的解析与启示[J].档案学通讯,2021(4):20-27.
[14]托马斯·库恩:科学革命的结构[M].张卜天,译:北京:北京大学出版社,2022:1-3.
[15]PAYNE N.Computational Archival Science[EB/OL].[2024-05-04] .https:/ai-collaboratory.net/cas/.
【作者简介】赵生辉(1977一),男,汉族,陕西宝鸡人,苏州城市学院城市治理与公共事务学院教授,博士,研究方向:计算档案学;徐丹丹(1992一),女,汉族,吉林德惠人,苏州城市学院城市治理与公共事务学院讲师,硕士,研究方向:档案资源开发;马藤(1990一),男,汉族,山西大同人,苏州城市学院城市治理与公共事务学院讲师,博士,研究方向:地方历史文献。