大数据时代档案数据治理中国经验

发布时间:2024-07-29 19:24:29被阅览数:98 次信息来源:​中国档案报  作者:金 波 杨 鹏

  大数据时代,数据资源指数增长、海量汇聚,也因此日益成为数字中国建设的重要信息资源和新质生产力创新发展的重要生产要素。《全国数据资源调查报告(2023年)》显示,2023年全国数据生产总量达32.85ZB(泽字节),同比增长22.44%。在国家治理现代化进程中,档案事业发展必然由传统的管理型模式向现代的治理型模式转变,档案治理成为国家治理体系的重要组成部分。档案数据以其真实可靠、完整可用、权威可信,成为国家数据资源体系中的精品优品。

  目前,在档案数据资源建设中,档案数据急剧增长与管理缺失、社会需求与保管分散、服务创新与技术薄弱、海量资源与价值实现之间的矛盾不断凸显,在数据质量、开放共享、版权保护、信息安全、技术伦理等方面面临着越来越多的挑战和风险,开展档案数据治理势在必行。

  近年来,围绕档案数据治理这一档案信息化前沿阵地,从国家到地方,展开了持续探索和广泛实践,涌现出一批典型优秀案例、应用场景和成功经验,形成富有中国特色的档案数据治理理论和路径。通过剖析档案数据治理理论内涵,凝练档案数据治理中国经验,建构中国特色档案数据治理理论知识体系和学术话语体系,推动档案数据治理研究深化与实践深耕,为全球档案事业数字化数据化转型和智能化智慧化升级提供中国方案、贡献中国智慧、彰显中国力量,显得尤为重要。

  档案数据形成的时代背景

  档案数据作为大数据时代档案信息资源新形态和档案管理新对象,其形成发展有着特定的现实背景和理论动因。

  从时代环境看,随着信息技术的发展、国家大数据战略的实施以及大数据、云计算、人工智能、区块链、元宇宙、大模型等新兴技术的广泛应用,各行各业工作环境和业务形态出现数据化智慧化转型。数据化浪潮也从源头上改变了档案信息的生成、记录、读取、存储和传播方式,档案形成生态由“模拟态”“数字态”向“数据态”加速质变,档案数据将逐渐成为大数据时代档案信息资源的主体,档案工作正在经历一个从管理档案实体到管理档案数据的应变过程。

  从行业现实看,人类生产数据能力的增强要求人类保存和使用数据能力相应提高,档案事业正在酝酿和掀起一场“数据革命”。档案信息从“数字空间”向“数据空间”迁移,推动着档案工作从“数字化”向“数据化”演进。

  从理论研究看,数据科学的兴起,推动档案学研究对象进一步向档案数据延伸。借用数据科学的理论知识,融入数据管理的技术方法,促进档案管理与数据管理有机融合,为档案学研究开启“数据范式”提供理论指导和研究路径。在多重因素驱动下,档案数据已成为档案学研究的前沿热点,档案数据论域加快形成。

  档案数据与档案数据治理

  档案数据是指数据化的档案信息及具备档案性质的数据记录。不仅包括档案部门已经掌握和积累的各类数据化档案资源、电子档案数据等,还包括具有长久保存价值但还没有纳入档案部门保管范围的数据,如网络档案数据、社交媒体档案数据等;不仅包括内容、结构、背景等档案元数据,还包括档案部门在档案管理业务过程中产生的管理数据、利用数据、用户数据、统计数据等累积性数据。

  档案数据是结构化、语义化、标准化的数据态信息资源,以数据形式记录和保存,能够被数据设备、数据技术识别、阅读、理解、处理、计算和分析,在满足档案性质的同时也满足数据的一般属性,如细粒度性、流动开放性、循环复用性、乘数倍增性,这是档案数据区别于传统档案信息的关键所在。

  档案数据治理是指档案部门、社会组织和公民等多主体协同合作,依据一定的法规标准和伦理道德,充分利用数智技术,对档案数据生成、采集、处理、存储、利用全生命周期进行管控,激活档案数据要素价值,实现档案数据善治的活动和过程。

  ——需要坚持协同共治、互联互通、全程治理、风险可控等原则,推动治理主体协同化、治理决策科学化、治理流程标准化、治理手段智能化,促进多元主体互信互认互动、治理方式合法合规合约,实现档案数据全流程、全要素、全方位的综合集成管理。

  ——需要利用各种现代信息技术、严密有效的管理制度,形成多元共治、精准治理的治理架构,构建以档案部门为主导,多元主体协同治理,融合制度、管理、技术、伦理于一体的动态治理体系。

  其目标是实现档案数据善治,即确保档案数据真实完整、质量可靠、安全合规、运行高效,保障档案数据可知、可控、可取、可联和可用,充分释放档案数据要素价值潜能和信息红利。

  大数据时代档案数据治理   中国实践和应用场景

  档案数据治理是档案治理的重要构成,构建大数据时代档案数据治理体系,既是激发档案学研究活力,拓展研究空间与视角的学术增长点,也是提高数据治理效能,推动资源建设,促进档案治理创新发展的重要路径。

  擘画档案数据治理战略。档案数据及其治理已成为近年来档案行业政策话语体系的重要关注点和高频词。2015年,国家档案局召开档案信息化“十三五”发展方向研讨会,围绕“档案数据安全”“档案数据资源开放共享”“档案数据中心”等内容展开研讨,掀开档案数据建设序幕。2021年,中办、国办印发《“十四五”全国档案事业发展规划》,要求推动档案全面纳入国家大数据战略,重点开展档案数据治理等重大课题研究。《上海市档案事业数字化转型工作方案》提出要增强档案公共数据治理能力,完善档案数据治理规则。《陕西省档案事业发展“十四五”规划(2021—2025)》提出,建立档案数据治理体系,实现对档案数据资源的全生命周期管理,保障电子档案真实、完整、可信和长期可用。2023年,浙江省委办、省政府办印发《关于推进新时代档案事业现代化先行的意见》,提出全面深化数字档案数据治理,支持打造区域性专业性档案数据大脑,支持发展档案数据可信存证、多模态大模型等数据治理新业态。从国家到地方,均对档案数据治理开展了一系列顶层设计和宏观规划,初步形成支撑档案数据治理的中国战略。

  加强数据档案化与档案数据化协同治理。作为时代新生事物,档案数据既是档案也是数据,是数据档案化和档案数据化的双向互构、协同融合与内在统一。数据是档案的重要来源,档案是数据的重要范畴。基于档案数据的双重质性,档案数据治理也呈现出数据档案化与档案数据化协同共治的双轨路径,形成具有鲜明特色的中国经验。随着档案管理越来越多地以“数据”为起点,档案服务越来越多地以提供“数据”为终点,“数据档案化”“档案数据化”将构成一个循环往复的闭环。

  数据档案化治理是指借助档案学知识原理与档案管理专业方法,将业务部门产生的具有保存价值的数据纳入档案管理范畴,赋予其档案属性,发挥档案部门在业务监督指导、信息可信认证、安全长期保存、开放共享利用等方面的管理经验和独特优势,将其融入数据治理全过程,促进数据管理规范化、安全化与价值化。如,浙江省嘉兴市档案部门制定原生数据归档范围、保管期限、编码规则、采集标准、数据获取、保存频率等档案业务管理规范,打造原生数据档案资源集聚治理新模式。嵊州市档案馆和市大数据中心试点开展基于县域公共数据档案化治理实践,共同谋划建设嵊州市“个人全生命周期档案”综合智治应用,为每个市民建立起个人全生命周期“数据资源中心”。

  档案数据化治理是指将数据科学理论知识与数据管理技术方法融入档案资源建设与档案业务管理中,加强档案数据质量控制与整合集成,推动档案存量数据化、增量电子化与资源结构化,助力档案事业数据化转型。如,中石油档案部门在前期档案数字化基础上,探索推进档案数据化,对油气勘探开发档案、设计档案、竣工图等进行数据化处理,建设重大科技专项、重要人物、工业遗产、大事记等专题数据库,不断提升档案数据质量,激活档案数据资产价值。

  推动档案数据开放共享。档案数据只有在开放流通、互联互通、共享融通中才能实现价值最大化。为此,需要打破条块分割与体制壁垒,夯实档案数据资源仓储,构建物理分散、逻辑集中、统一联动的档案数据共享利用平台,破除数据孤岛、数据壁垒、数据烟囱、数据异构、数据离散,推动档案数据跨区域、跨层级、跨系统、跨业务、跨行业共建共享。如,2018年,沪苏浙皖三省一市档案部门在上海签署《开展民生档案“异地查档、便民服务”工作合作协议》,打造“一网查档、百馆联动”档案公共服务品牌,开创全国档案跨省域档案资源利用的先河。2020年起,浙江省档案馆打造全国首个省级档案数据共享中心,现已初步实现省、市、县101个综合档案馆民生数据全部联通。2022年,全国档案查询利用服务平台正式上线,截至2023年底,全国各级综合档案馆接入率达60%,档案查询利用“一网通办”不断提质扩面。2023年,上海市档案馆“跟着档案观上海”数字人文平台上线,综合运用人工智能、人机交互、知识图谱、数据库等技术,将档案知识图谱和时空地理信息系统、流媒体故事系统等有机融合,打造独具海派特色的档案文化传播共享平台。

  释放档案数据要素价值。数据要素理论是具有中国特色的原创性理论。档案数据作为高价值的原生历史记录和珍贵数字记忆,以其真实可靠、权威凭证性成为独具特色的生产要素,档案数据要素价值成为大数据时代档案价值新形态。在数据要素价值广泛认同和持续深化的背景下,档案数据要素价值将成为档案数据学术研究增长点和实践创新突破点。借助数智技术,融入数字人文、数字叙事、数字文旅、数字文创等新方法,活化档案数据开发利用,强化档案数据要素资源化、资产化、资本化转化,提供知识化、智慧化档案数据服务,可以充分释放档案数据乘数倍增、循环复用的生产要素价值。如2022年,上海数据交易所联合华山263老字号品牌馆,合力推动老字号品牌数字资产创新,成功首发“华山263老字号品牌馆 开馆珍藏”数字资产。上海市气象局数据产品《上海年度辐射分析报告》在上海数据交易所完成首笔场内气象数据交易,推动气象数据在优质的交易环境内流通共享,优化规范气象数据交易流程,最大化释放气象数据的核心价值,进一步拓展了气象档案数据应用场景。

  赋能新质生产力创新发展。新质生产力是生产力理论的重大创新,对推进和拓展中国式现代化有着深远历史意义和实践价值。习近平总书记指出,新质生产力是创新起主导作用,摆脱传统经济增长方式、生产力发展路径,具有高科技、高效能、高质量特征,符合新发展理念的先进生产力质态。新质生产力的发展离不开数据要素的有效赋能。档案数据是赋能新质生产力发展的必备要素和动力引擎。立足数字中国战略背景,借助现代信息技术,培育壮大档案数据产业集群联盟,开发档案数据信息文化精品,促进档案数据高效融入市场大循环和经济大生产,助力数字产业化和产业数字化,有利于推动经济增值增效、政府科学决策、科技创新变革、文化传承赓续、生态和谐健康,赋能社会生产力发展。如,国家空间科学数据中心、国家高能物理科学数据中心、国家天文科学数据中心等加强天文与空间领域科学数据全生命周期治理与融合开发,形成高质量空间天文科学数据资源约50PB,通过科研档案数据挖掘分析,服务空间天文领域科技创新,有效助力原创性、标志性、突破性科学发现。

  (作者金波系上海大学文化遗产与信息管理学院教授、博士生导师,上海大学档案事业发展研究中心主任;杨鹏系上海大学文化遗产与信息管理学院讲师)

  原载于《中国档案报》2024年7月29日 总第4168期  第四版