计算档案学的建构:基于计算社会科学的审视与展望

发布时间:2024-04-16 19:31:09被阅览数:311 次信息来源:湖北省档案服务行业协会

周文泓   黄思诗

(中国人民大学信息资源管理学院   北京   100872)

  摘要:基于计算社会科学角度的审视旨在深入探讨计算档案学的未来建构空间。通过文献调查与分析,梳理计算社会科学的总体要点,为计算档案学的建构提供方向。由此,对照计算社会科学提出计算档案学的建构空间:明确计算档案学的数据情境、具化计算档案学的研究体系、拓展计算档案学的研究内容、强化计算档案学的迭代建设。

  关键词:计算档案学;计算社会科学;档案学科建设;数字转型

  1  引言

  计算档案学由2015年明确提出,至今已有7年的探索历程,成为档案学在人类世界数字转型大背景下锚定的发展方向之一,甚至被认为将建构出档案学融合计算机科学、数据科学等多学科的超学科[1]。当前,理论阐释与实践归纳推进了计算档案学的建设。理论建构方面:一是由跨(超)学科属性界定计算档案学,指出档案学同计算科学、数据科学等学科之间实现融合性建构以促进新的理论与方法论的形成[2][3];二是由计算档案学的发展背景指出计算档案学应深挖数据化的理论与方法内涵[4][5];三是提出计算档案学应当以计算科学与数据科学中计算思维为方法域进行建构[6]。实践的示例与归纳以启示计算档案学应有什么为目前多数的研究路径,从如下方面充实计算档案学:跨学科属性驱动异质主体协同参与[7]、数据化情境赋予多元泛在对象[8]、融合计算思维再造档案管理活动[9],问题导向下的技术应用策略。随着建构的内容日趋丰富,计算档案学的建设方向进一步明确,如同新文科建设相结合[10][11],以及面向数字人文的计算思维、方法实践等。尽管计算档案学已有一定成果,但作为学科或分支研究方向,应有的理论与方法未得到充分阐述,更未形成系统框架。

  因此,本文将从外部着手,即梳理与挖掘计算社会科学的基本要点,用以启示计算档案学有何内容可吸收、有何方向可参考等,由此进一步明确计算档案学可能存在的缺失之处与发展空间。

  2   计算档案学的建构方向:计算社会科学总体要点的梳理

  当前所指的计算社会科学主要源于2009年大卫·雷泽等15位学者在《科学》发表专题文章解释了计算社会科学的产生背景、应用价值、人才培养等内容[12]。由此,更加立足于大数据情境的计算社会科学得到各学科的关注,以此为研究认识论与方法论深入于各学科的“计算+”,如计算法学、计算传播学、计算经济学、计算语言学、计算教育学等,也进一步丰富计算社会科学乃至社会科学的内涵。于计算档案学而言,计算社会科学的框架与内容要点是重要建构参考与方向。基于对计算社会科学相关研究成果的梳理分析,可发现如下要点:

  2.1   数据化的背景下如何认识社会与社会科学

  于计算社会科学而言,首先转变的是研究数据伴随数字技术的发展有了颗粒度、广度、时效性等方面的综合变化,从而改变对社会的认知,这是拓展完善社会科学的相关认识与方法的基础[13]。

  一方面,计算社会科学关注的是社会的数据生态,即社会范畴内形成了怎样的数据、这些有怎样的内容与形式表现,于社会科学而言有怎样的特点与价值,由此帮助社会科学确定如何用这些数据用于研究。当前的计算社会科学研究认识到,研究所用的多是社会活动中使用网络自然形成的数据,同以前基于抽样做实验、做调查所获得的数据有较大差异。这些数据的特点为颗粒度的细化、广度上覆盖更多人群、密度上显示为海量密集增长、时效性体现为实时采集等,以丰富的数据源解释更多的社会现象[14]。因之,社会科学要识别不同的生产阶段以及与之对应的数据情境,以此指导研究认知与方法的变化。[15]

  另一方面,依循当前的数据情境,探讨这些数据同社会的关系,以进一步确定这些数据可以怎样解决有关社会科学的研究问题[16]。当前,主要的讨论在于这些数据适用于揭示因果还是相关关系、可用于重复预言还是新颖语言[17]、是可以反映总体还是局部的知识[18]。于计算社会科学而言,高度数字化的社会形态显示为高度数据化的人类行为,计算社会科学如果实现依托大数据认识社会的本体论、认识论、方法论的建构,就可以挖掘人类行为规律与方式[19][20]。虽然不同研究各有其观点,但就理想层面来说,还是认定计算社会科学体现的是把社会作为复杂系统的研究范式,只是无论是互联网自动生成的数据还是科研机构专门建立的数据平台,当前的数据还是不能完全实现与整个社会复杂系统的对照[21]。因此,计算社会科学要求既要基于现有数据去探查社会现象,也要考虑那些缺失的数据同研究结果的关系[22]。同时,计算社会科学也意识到,多数数据不是为了研究而生成,网络中形成的数据也不一定能对应于现实的人事物,用于研究时如何处理及其局限都要放入研究中去考虑[23]。

  2.2   计算化的背景下如何变革社会科学研究框架

  在数据化的推进下,社会更多的现象的可计算性得到加强。在计算化的背景下,社会科学的研究方法即要用怎样的数据如何解答相应的社会问题[24]。

  一是,围绕数据与对数据认知的变化,引发社会科学中新问题的发现与识别,即计算社会科学主要解决的研究问题产生变革[25]。研究明确指出,计算社会科学既要利用新数据及其相关要素发现新问题,又要基于新数据去重构经典概念与问题[26]。换言之,同数据密集型研究范式的融合驱动产生新的研究问题和研究关注点[27][28]。这在各领域均有表现,例如尽管失败但亦有取得研究成效的谷歌流感趋势实验。再如,计算思维融入法学,推进了人工智能法、互联网信息服务法等新的发展方向。[29]对应于此,探索目标是新概念的提出与界定、社会现象的新解释或优化解释、新理论的提出或是经典理论的重构。

  二是研究方法层面,如何使用数据得到较大程度的发展。随着计算社会科学不断发展,研究范式由数据驱动发展至同理论驱动相融合,即在相关关系的基础上进一步重视因果关系[30][31]。研究方法随之拓展扩充,其起点是计算社会科学很大程度上有别于总体中选取部分的随机抽样,而是基于数字场景中直接生成的数据展开研究[32]。目前,研究方法分类各有差异,但总体形成了社会数据计算、互联网社会科学实验、社会模拟三大方法体系[33-35],并在各大领域得到应用。

  三是研究保障同样有所变革。组织方式、研究者构成、知识评价标准等在计算社会科学的推进下均在变化中。例如,社会科学将有更多的实验室、以计算科学、计算机科学、物理学等为基本组成的研究队伍建设、可重复性在知识评价中凸显等都可以看作重要表现[36][37]。

  2.3   智能化的背景下如何优化各领域的社会活动

  数据化和计算化的本质是为了推进社会各要素的优化,直接表现为各领域社会活动的智能化甚至实现智慧化。显示于社会科学中就是要探索应用技术与工具来解决具体问题。

  一方面,计算思维如何系统融入相应领域的社会问题,成为更体系化的方法论或路径得以探讨。计算化涉及的数据、算法、平台和场景都成为社会的特定领域与活动中需要深入考察与描摹的内容,这需要在特定的社会活动中去界定人、行为、对象、场景等实体,并对其进行计算化转换,进而理解特定领域宏观的活动模式与构成要素。在此基础上,计算社会科学探讨的则是每一个社会问题如何转化为适应于计算空间的运行要素、方法、模式等,用计算思维进行表达[38]。

  另一方面则落于具体的技术与工具,研究如何解决具体问题,甚至发展该领域的数字科技。以技术为驱动也得到重点关注,从研究工具的角度强化计算社会科学,用以加强对数据的收集、处理、分析、输出等[39][40]。例如,计算广告学探讨的重点之一是基于互联网语境提供的丰富用户行为数据在市场与消费者洞察、复杂变量的综合考量、宏观发现等方面实现突破[41]。这进一步推动数字技术融合于特定领域乃至特定活动开发出定制化工具,如计算科学也用于环境法治生产平台、计算法学由此出现数字法律科技的分支[42][43]。

  2.4   风险视角下反思计算社会科学

  基于目前数据化以及相关要素的不足,讨论计算社会科学存在的现有局限,并由此展望计算社会科学的发展亦是研究重点。现有研究通过细化数据情境的局限,探讨计算社会科学的相应不足,这本质上也折射出计算社会科学的发展空间。

  一是由数据对象本身出发,从数据安全与开放、隐私、知识产权、被遗忘权等主体权益讨论计算社会科学的规范与伦理问题[44]。

  二是所谓大数据本身存在的局限对计算社会科学的影响亦有关注,例如偏重大数据而忽视其他数据源、所获得数据为互联网垄断平台而生成等是否会造成不客观或削弱多样性等风险[45][46]。

  三是研究人员对数据的应用能力的问题对计算社会科学存在的影响。例如,研究人员可能只具备基本的数据处理能力,但对技术、算法、数据对象缺乏系统认识,导致研究成果的科学性受限[47][48]。

  3   计算档案学启示于计算社会科学的方向性总结

  参考计算社会科学的总体要点,计算档案学诸多需要对照思考的地方进一步明确:

  首先,计算档案学所处的是怎样情境,研究数据从何而来,有着怎么样的表现、价值与特点?

  其次,计算档案学从学科角度应有的主要研究框架是什么,计算档案学为档案学科带来哪些新的研究问题,研究方法有怎样的发展,对应的研究保障有什么需求?

  再次,计算档案学核心的研究对象即融入计算思维、方法、技术和工具的档案管理怎么构建,都要解决哪些实践问题以及如何解决?

  最后,计算档案学存有怎样的局限,从数据要素到研究主体等维度都有怎样的风险与不足?

  4   展望:对照计算社会科学的建构空间

  计算档案学在多年的探讨中已从学科整体构思至实践经验总结逐步丰富其框架与具体内容。然而,对照计算社会科学,计算档案学无论是作为学科予以构建还是作为研究新方向进行拓展,都还需要更体系化的脉络搭建与内容填充。因之,结合计算社会科学启示的建构方向,基于已有探索,建构空间可围绕如下方面展开。

  4.1   明确计算档案学的数据情境

  当前,尽管计算档案学显示出同数据化的融合,但主要偏重于两个方面。一是档案对象的数据化,主要是将历史档案加工转换至数据颗粒度。二是数据方法与技术应用于档案管理问题的解决。对比之下,计算社会科学乃至计算传播学、计算法学等领域,数据情境则更为系统与多元,以下要点值得关注与思考以丰富计算档案学的建构场景。

  一是,互联网作为大数据重要的生成空间,计算档案学应从数据角度与其加强连接。具体来说,计算档案学当前同互联网的关联更在于把互联网作为工具,引导着将档案信息资源予以开发利用。对比之下,互联网用户生成的行为数据、内容数据、背景数据等尚未充分纳入计算档案学当前的研究范畴。而这些实时产生、社会面多元、来源与结构复杂的数据本身是各个学科数字转型的重要资源。它们的缺失使得计算档案学所强调的大数据发展背景存不足,不利于跟进人类世界发展进程并重构档案认知与方法。因此,对计算档案学而言,未来要更多地将档案活动的场景拓展至互联网之中,考察互联网中的档案与档案与档案现象。

  二是,计算档案学尚待将档案管理纳入数据化的范畴中。计算档案学目前更偏重于档案对象的数据化,但档案活动的数据化并未系统纳入其数据情境。换言之,档案管理本身所形成的数据依照计算社会科学的思路是极为重要的行为数据,依循这些数据设定专属维度可以更好探查该领域的行为规律与模式。当前,多数研究虽对档案管理展开数据映射,但更对是为了匹配数据化的档案以形成数据技术与工具的方案,并未以实时和持续采集的档案管理数据作为重要的研究数据源。因此,计算档案学需要对档案现象尤其是档案管理进行系统的数据追踪与分析,发现更多的相关、因果关系,并促进更多的档案管理预测以实现更加智慧和高效的档案管理方法与实践。

  4.2   具化计算档案学的研究体系

  计算档案学目前作为研究体系的建构并不充足,多是从宏观角度对所涉学科有所阐释,并基于计算思维给定建构方向,但尚需要从研究体系的多个层面予以新建或补充。

  一是,由理论层面加强研究问题群的建设。当前,计算档案学更多围绕实践,将计算工具或技术对照档案管理所需探讨方案。对应于实践问题的引领,理论层面的建设则有所不足。在这其中,围绕本体论、认识论、方法论的系统建设:核心概念的识别与界定,如计算科学、信息科学的概念同档案学如何对接、重组;基础理论的重构与扩充,如来源原则、文件生命周期理论、文件连续体是否要重新阐释,立足于互联网情境是否有新的档案理论提出等;新的视角与场景是什么,有哪些新的研究分支,如人工智能是否要推动新的研究方向产生。

  二是,由研究方法层面补足计算档案学的内容组成。当前,有关计算档案学的相关研究提及研究方法的较少。然而,研究方法作为学科的必要组成不可缺失。对计算档案学而言,一方面可借鉴计算社会科学的方法论,将其已相对明确的研究方法予以拓展扩充,这就涉及到如何将社会数据计算、互联网社会科学实验、社会模拟应用于档案学之中并展开适应性发展。另一方面,计算档案学是否有特定的或专属的研究方法,这也是需要加大研究投入之处。

  三是,研究保障上需要依据计算档案学建构进展、目标以及所处场景动态形成可行方案。为了更系统地推进计算档案学发展,计算档案学的研究共同体、科研与教学实验室、教学改革等都是重要的有待完备的保障要素。同时,对计算档案学研究成果从知识评价上的优化与推广,同样重要,以此推动作为新学科、新方向及时融入实践应用与学科发展。

  4.3   拓展计算档案学的研究内容

  计算档案学的研究内容很大程度上是档案部门或相关记忆机构推进的档案活动,这固然为档案学提供丰富、重要、典型的场景。但依循数据情境的必要扩充,计算档案学的研究内容也可参照计算社会科学予以拓展。依照对已有研究的分析可发现,计算档案学所对照发展的实践有如下特征:实践主体以长期保存“历史”档案的档案馆或记忆机构为主;从生命周期来看,偏重于档案后端的环节如保存、开发利用、开放鉴定等;档案对象上,更多是官方或大型组织机构形成的档案。对应于此,计算档案学需要完备之处在于:

  一是,研究范畴扩展至更多参与和开展档案活动的主体及其利益相关者,除了档案馆等记忆机构与同样较为关注的档案形成官方机构外,互联网场景中更多的网络用户形成者、提供基础设施的网络服务提供商、档案管理规则制定和监管的机构等都要纳入其中。不同主体在信息、数据活动中自发或自觉形成的档案认知、理念、方法、能力、作用、行为等都是重要的研究对象。

  二是,研究内容在档案活动上要从更全景的视角延伸向档案的全生命周期,从形成至保存或删除的全流程都要有所体现。线性思维在数字空间中多面受阻,档案管理环节也同样以非线性的方式连接。在此背景下,档案的形成甚至系统或平台建设,所有的相关活动都可以视作档案活动的组成。

  三是,社会范畴所形成的档案要进一步显示于计算档案学之中。尽管目前大数据还达不到所谓的总体数据,但多元广泛的社会面覆盖已是事实,这是档案学不可忽视的范畴。通过考察这部分档案以及相关档案活动,档案的认知与方法也将扩充。当前,计算档案学衔接的依旧是官方为主的场景所构筑出的理论与方法,如若同社会范畴的部分档案强化对接,区别于官方场景的档案现象将大大丰富有关档案行为模式与规律的认识。

  4.4   强化计算档案学的迭代建设

  计算档案学无论是作为学科还是研究方向,其建构难度较大。在难以一蹴而就的背景下,更多地需要识别风险与机遇,将其转换为发展空间与应对策略。计算社会科学所识别出的风险同样具有参考意义。

  一是,计算档案学本身就是以档案对象为核心,来自数据层的风险对计算档案学而言有着重要价值。一方面,计算档案学要积极发现数据风险以尽量规避计算档案学出现的伦理、法理以及研究结果有效性等方面的不足。因此,计算档案学的建构要全面全程审视所选取的数据源、数据的优势与不足、数据使用的方法与技术工具等。另一方面,对计算档案学而言,从档案角度发现数据风险并形成对策,本身也可作为计算档案学的研究内容。例如数据安全与权益保障等议题,本身也可以同档案已有的鉴定、开放利用等实现双向的扩展。

  二是,面对数据存有的局限,计算档案学同样需要积极探寻与梳理数据情境。围绕数据源、数据主体、数据内容、数据形式、数据价值、数据特点、数据局限等要素,要做好研究数据的盘点,并立足不同场景的研究,形成示例,也为计算档案学认知与方法的升华提炼奠定基础。

  三是,立足研究能力的问题,计算档案学要从两大方面进行消解。一方面,在于研究队伍的优化,这主要从科研训练和学科教育着手,强化计算与数据素养在能力矩阵中的融合,加强引导与培训。另一方面,从研究基础设施和数字空间的对接上做好机制建设。当前数字空间提供的研究数据并非为研究而生成,它们只是有研究价值。因之,研究的透明度与数字空间的安全度、商业利益保障等之间的平衡应得到考虑,并建立更系统的合作机制。例如,通过计算档案学的研究共同体或档案学的学术机构同网络平台达成合作,就数据的生成机制、数据共享、数据的使用、数据使用后的权益保障等细化规则。

  5   结语

  计算社会科学为众多学科的“计算+”提供了基本的认知与方法参考,计算档案学在其中可视为重要建构方向,已有内容涵盖融合计算思维的理论阐释以及经由计算档案管理的方法发现,但整体仍需系统的框架搭建与内容完善。本文梳理了计算社会科学的内容要点,对照计算社会科学提出了计算档案学建构空间的展望。同时,计算档案学如何参照计算社会科学实现更完备的建设与产出,仍需更多元而深入的研究与实践探索。

  注释与参考文献

  [1]AICollaboratory.CAS workshops[EB/OL].[2023-02-10].https://ai-collaboratory.net/cas/cas-workshops/.

  [2]刘越男,杨建梁,何思源,祁天娇.计算档案学:档案学科的新发展[J].图书情报知识,2021(03):4-13.

  [3]于英香,刘茜.论计算档案学的出场逻辑[J].档案学通讯,2021(05):22-31.

  [4][51]PAYNE N.Stirring the cauldron:Redefining computational archival science (CAS) for the big data domain,December 2743-2752,2018[C/OL].Seattle:IEEE,2019.

  [5]MAX-NEEF M A.Foundations of transdisciplinarity[J].Ecological Economics,2005,53(1):5-16.

  [6][50]UNDERWOOD W,MARCIANO R.Computational Thinking in Archival Science Research and Education,December 3146-3152,2019[C/OL].Los Angeles:IEEE,2020.

  [7]LEMIEUX V.A typology of blockchain recordkeeping solutions and some reflections on their implications for the future of archival preservation,December 2271-2278[C/OL].Boston:IEEE,2018.

  [8]PERINE L,GNANASEKARAN R,NICHOLAS P,et al.Computational treatments to recover erased heritage:A legacy of slavery case study(CT-LoS),December 1894-1903[C/OL].Atlanta:IEEE,2021.

  [9]JANSEN G.Digital legacies on paper:Reading punchcards with computer vision,December 3103-3108,2019[C/OL].Los Angeles:IEEE,2020.

  [10]赵跃,马晓玥,张佳欣.中国计算档案学发展的SWOT分析与策略研究[J].图书情报工作,2022(04):56-66.

  [11]周文泓,代林序,祁天娇.新文科背景下计算档案学的发展策略研究[J].档案学研究,2022(01):22-29.

  [12]DAVID L,PENTLAND A,ADAMIC L,et al.Computational social science[J].Science,2009,323(5915):721-723.

  [13]CIOFFI-REVILLA C.Bigger computational social science:Data,theories,models,and simulations—Not just big data[EB/OL].(2016-05-24)[2023-2-10].https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2784278.

  [14]张清俐.计算社会科学:计算思维与人文灵魂相融合[N].中国社会科学报,2014-04-16(A01).

  [15][30]孟小峰,张祎.计算社会科学促进社会科学研究转型[J].社会科学,2019(07):3-10.

  [16]STROHMAIER M,WAGNER C.Computational Social Science for the World Wide Web[J/OL].IEEEIntel ligent Systems,2014,29(5):84-88.

  [17][21][44]郦全民.论计算社会科学的双重功能[J].上海交通大学学报(哲学社会科学版),2019(05):6-13.

  [18]王成军.反思计算社会科学的逻辑:基于拉图尔的“计算中心”概念[J].南京社会科学,2021(04):122-131.

  [19]郭金金,陈伟军.计算社会科学时代场景内涵的再认识[J].新闻界,2021(04):18-27.

  [20]李凤翔,罗教讲.计算社会科学视角:媒体传播效果的计算机模拟研究[J].学术论坛,2018(04):15-27.

  [22]詹国辉,熊菲,栗俊杰.面向大数据的计算社会科学:一种诠释社会现象的新范式[J].科学技术哲学研究,2018(03):100-104.

  [23]韩军徽,李正风.计算社会科学的方法论挑战[J].自然辩证法研究,2018(04):14-19.

  [24]王成军.计算传播学:作为计算社会科学的传播学[J].中国网络传播研究,2014(1):193-206

  [25]Chang R M,Kauffman R J,Kwon Y O.Understanding the paradigm shift to computational social science in the presence of big data[J].Decision Support Systems,2014,63:67-80.

  [26]张小劲,孟天广.论计算社会科学的缘起、发展与创新范式[J].理论探索,2017(06):33-38.

  [27]袁堂军.我国可计算社会科学研究的现状与未来[J].人民论坛·学术前沿,2019(20):40-47.

  [28]孟小峰,余艳.在跨学科交叉融合中深发展社会计算与社会智能[J].计算机科学,2022(04):3-8.

  [29][38][43]申卫星,刘云.法学研究新范式:计算法学的内涵、范畴与方法[J].法学研究,2020,42(05):3-23.

  [31]严宇,方鹿敏,孟天广.重访计算社会科学:从范式创新到交叉学科[J].新文科理论与实践,2022(01):24-33+123-124.

  [32]苏毓淞,刘江锐.计算社会科学与研究范式之争:理论的终结?[J].复旦学报(社会科学版),2021(02):189-196.

  [33]郝龙.互联网社会科学实验:方法创新与价值评价[J].中南大学学报(社会科学版),2020(06):163-174.

  [34][46]范晓光,刘金龙.计算社会学的基础问题及未来挑战[J].西安交通大学学报(社会科学版),2022,42(01):38-45.

  [35]吕鹏.计算社会科学中仿真模拟的三个发展阶段[J].清华社会学评论,2022(1):38-59.

  [36][47]韩军徽,张钺,李正风.计算社会科学:缘起、变革与挑战[J].中国社会科学文摘,2020(10):132-133.

  [37]罗俊,李凤翔.计算社会科学视角下的数据观[J].吉首大学学报:社会科学版,2018(2):17-25.

  [39]孟小峰.人工智能浪潮中的计算社会科学[J].人民论坛·学术前沿,2019(20):32-39.[40]《学术前沿》编者.人工智能与计算社会科学[J].人民论坛·学术前沿,2019(20):4-5.

  [41][48]曾琼.突破与重构:大数据时代的计算广告学研究[J].湖南师范大学社会科学学报,2019(05):150-156.

  [42]俞树毅,沈燕飞.论环境法治知识生产的计算科学面向[J].西北师大学报(社会科学版),2022,59(03):116-124.

  [44]郝龙,李凤翔.社会科学大数据计算——大数据时代计算社会科学的核心议题[J].图书馆学研究,2017(22):20-29+35.

  [45]周涛,高馨,罗家德.社会计算驱动的社会科学研究方法[J].社会学研究,2022(05):130-155+228-229.

  [49]JANSEN G,COBURN A,SOROKA A,et al.Using data partitions and stateless servers to scale up fedora repositories,December 3098-3102,2019[C/OL].LosAngeles:IEEE,2020.

  【基金项目】国家社会科学基金青年项目“计算档案学视角下的网络档案资源建设研究”(22CTQ042)。

  【作者简介】周文泓(1990-)男,博士,副教授,研究方向:网络空间的档案化管理、计算档案学、政府开放数据;黄思诗(2001-),研究生,研究方向:计算档案学、政府开放数据。