贝叶斯模型在数字保存风险管理中的应用与启示——以英国国家档案馆DiAGRAM项目为例

发布时间:2024-01-29 09:00:41被阅览数:264 次信息来源:《中国档案》

  文/陈栩杉

  英国国家档案馆、华威大学等机构基于贝叶斯模型构建了数字保存风险评估模型DiAGRAM(Digital Archiving Graphical Risk Assessment Model),利用该模型的网络结构和概率信息数据,来描述数字保存活动中各类风险因素之间、风险管理行为之间的相互依赖关系。以DiAGRAM为核心形成的决策支持系统,能够在数据有限或缺失的情况下,识别当前的数字保存风险,量化拟实施的不同风险管理策略效果,便于档案管理者提前预测风险并选择最为经济有效的应对措施。

  本文在分析数字保存面临风险的基础上,对DiAGRAM项目的总体思路、技术架构、实现流程等进行了阐述,并论述了其对我国档案馆安全风险评估的启示与思考。

  DiAGRAM项目概况

  1.总体思路

  DiAGRAM项目针对数字保存风险管理领域复杂多变、高度不确定性的特点,基于贝叶斯网络构建定量风险评估总体框架,选取概率信息作为描述数据不确定性(如未知性、随机性、模糊性)的载体,实现多源信息的优化融合,最终形成网络环境下集开放性、集成性、交互性、快速响应性于一体的数字保存风险管理决策支持工具。

  该项目旨在帮助档案机构及其他文化遗产机构全面理解数字保存风险因素之间的相互作用关系,了解当前本机构数字保存风险状况,比较不同风险规避措施,从而获得低成本高回报的风险管理备选方案。此外,项目还致力于推动跨学科领域知识融合和交流合作,提高社会各界对数字保存风险管理的认识,为争取数字保存的针对性投入提供了确实依据。

  2.技术架构

  为了更为科学地厘清影响数字保存的风险因素及其相互关系,需要将不同领域专家给出的意见以统一的框架进行组合,便于用户综合来自不同方面的信息做出正确决策。因此,DiAGRAM项目以动态贝叶斯网络(Dynamic Bayesian Network,DBN)作为多源信息融合框架,构成一个面向数字保存风险管理的综合决策支持系统。

  该系统的基本结构可以归纳为人机交互子系统、问题处理子系统、模型库子系统、数据库子系统4个部分组成,如图1所示。

1.jpg图1   DiAGRAM项目系统结构示意图

  (1)人机交互子系统是整个系统的人机接口界面,以Web前端的网页形式呈现。用户根据本机构数字保存现状,通过人机交互子系统输入DBN模型所需的有关信息,并可依据拟采取的风险管理措施对模型参数进行反复测试、分析优化,从而获得一个最优的风险管理解决方案。

  (2)问题处理子系统根据人机交互子系统收集的各类信息,利用模型库子系统和数据库子系统提供的数据、模型、规则、算法等知识,对当前数字保存风险评估问题进行求解,得到最终的风险评估分数,反馈给人机交互子系统供用户进行决策。

  (3)模型库子系统是整个系统的核心,包括模型库和模型库管理系统。

  模型库中存放着1个DBN通用模型和2个基准模型。通用模型是集成相关标准和领域专家意见形成的通用模板,目的是便于用户在统一框架下完成评估任务,使得不同机构、不同方案的风险评估分数更具有可比性。基准模型是在通用模型基础上,面向商业机构和大型国家机构生成的定制模板,目的是为两类机构的模型构建提供参考,也可作为其他机构定制模型的对比依据。

  模型库管理系统与人机交互子系统配合可完成模型的创建、运行、修改、维护等操作;与数据库子系统配合可实现模型构建所需数据的输入输出功能。

  (4)数据库子系统包括数据库和数据库管理系统。

  数据库中存放着从人机交互子系统中收集的或来自各个领域专家提供的各类数据。例如,反映本机构数字保存现状的客观数据、反映专家经验意见的主观数据等。

  数据库管理系统主要用于对上述数据进行统计、计算、分析、检索、维护,并能将其转换成系统要求的数据形式。例如,将不同专家意见信息转换成DBN模型所需的条件概率表。

  3.实现流程

  从系统的基本结构可以看出,系统功能实现的关键在于:一是生成要素齐全、规模适中、易于量化、方便迁移的DBN通用模型;二是提供可用性强、支持灵活定制、安全系数高的人机交互方式。因此,DiAGRAM的实现流程主要分为以下几个步骤:

  (1)构造网络结构。将影响数字保存的风险因素表示成DBN的层级结构,图中的节点表示风险因素,边表示不同因素之间的依赖关系。综合考虑应用范围、量化难度、模型尺度等因素,形成了包含4个层级21个节点的网络结构,如图2所示。

1.jpg图2   DiAGRAM项目构造的风险因素网络结构

  (2)填充节点信息。网络结构构造完成之后,需要给每个节点赋值才能构成完整的DBN模型。由于DBN中所有节点值都须以概率形式表示,因此如何将节点本身及节点间依赖关系转换为概率信息是关键。

  第一层的9个节点反映的是本机构数字保存现状,这些节点没有父节点,节点值需要人工以百分比形式输入,例如数字资源构成的比例、异地异质备份的比例、存储载体类型的比例、发生自然灾害的可能性等,百分比值可直接转换为该节点的概率值。

  其他层的所有节点反映的是其父节点的作用结果,须将多个父节点与子节点间的依赖关系转换为条件概率表,笔者在此给出了“存储载体”“专业技能”与“载体退化”节点之间的条件概率示例表。条件概率表具有动态变化和不确定性,无法直接获得,需通过专家意见调查法形成。DiAGRAM采用IDEA方法先评估每个专家的擅长领域,便于在汇总专家意见时对其意见进行合理的量化加权,从而获得高质量的条件概率表。

条件概率示例表

1.jpg  (3)模型质量控制。DBN模型构建完成之后,需要测试其准确性、可用性、稳定性。同样采用IDEA方法,检查父节点的先验概率是否准确、子节点的条件概率表是否可用、整体模型的预测性能是否稳定等。

  (4)搭建原型系统。原型系统将各个子系统组合起来,使用户可以通过前端网页形式的操作界面实现系统功能。用户通过回答16个有关本机构数字保存现状的问题,即可得到当前的风险评估分数。用户还能通过更改问题答案、模型网络结构、条件概率表等,定制个性化的风险评估模型,直观测试不同场景、不同风险规避措施对最终分数的影响。

  DiAGRAM项目对我国档案馆安全风险评估的启示

  1.借鉴数字保存目标重点,厘清评估要素起点边界

  根据数字保存金字塔模型,数字保存活动需要达成可获得性、可识别性、完整性、持久性、可呈现能力、真实性和可理解性等一系列的层级目标。对于档案馆而言,一切确保档案资源长期安全保存的保障机制、馆库设施、管理活动等,其效果最终都会体现到资源本身。因此,在进行档案馆安全风险评估时重点围绕档案资源确定评估指标、内容和方法,更有利于评估工作落地见效,实现以评促建。

  国家档案局办公室印发的《档案馆安全风险评估指标体系》(以下简称《指标体系》),涉及馆库安全、档案实体安全、档案信息安全、安全保障机制等方面,覆盖档案工作各个环节。但从实践层面看,将该指标体系应用到日常风险评估工作中还有一定难度。例如,评估指标较多,包含三级共75个评估指标;评估依据较广,涉及将近50个不同领域的法律法规、规范性文件和标准;评估内容部分重合,某些评估项出现在多个评估指标的评估内容中;评估办法主观性较强、缺乏量化等级,没有提供超出或未达到指标要求的赋分依据。从制定《指标体系》的目的来看,对档案馆安全风险进行系统分析评价是为了最大限度地确保档案的安全,评估馆库安全、保障机制等也是为了确保档案资源长期安全可用。因此,可进一步优化现有指标体系构成要素,以影响档案实体安全和档案信息安全的指标为出发点,将其他支撑条件转化为或纳入反映资源保存现状的指标中,尽可能缩减指标体系规模,并提供完善的等级划分结论。

  2.立足风险评估基本过程,匹配决策支持模型方法

  按照ISO31000的框架和定义,风险评估是风险识别、风险分析、风险评价的全过程。对于档案馆而言,风险识别是指识别可能对档案馆安全产生重大影响的风险源、风险原因以及后果的过程;风险分析是指理解档案馆安全风险特性、确定风险等级的过程;风险评价是指将风险分析结果与风险准则或以往结果比较,确定是否采取措施或决定措施优先级的过程。可见,风险评估过程主观性、个性化较强,不存在普遍适用的风险评估方法。因此,在具体实践过程中,档案馆应综合衡量风险复杂性、资源可用性、数据不确定性等因素,选择符合自身状况、管理架构和特点的技术方法。

  从《指标体系》给出的评估方法来看,其技术思路遵循的是目标导向,即将档案馆安全的总目标分解为阶段性或流程性目标,任何危及目标的事件都被识别为风险。在具体评估过程中,可以采用“德尔菲法+层次分析法”逐项设置、计算各级指标权重,再对标《指标体系》中“高危性/危险性/未发现安全风险隐患”的具体准则得出评估结论。这种方法的评估模型、计分细则等依赖专家经验,评估过程、评估结论主观性较强,当评估专家不同时,同一档案馆的多次评估或者不同档案馆之间的评估结论不便于进行比较。相比之下,DiAGRAM的技术思路遵循场景导向,即建立数字保存风险因素发生的场景和传导机制。在具体评估过程中,采用“贝叶斯模型+概率信息”描述风险事件发生的因果关系和可能性,使专家经验知识得以固化和量化,有利于不同机构之间在统一的框架下衡量风险事件发生的概率、模拟风险管理措施的效果、确定风险管理措施的优先级。因此,可在现有《指标体系》基础上,细化三级指标评估内容的等级划分,提供定量评估方法的参考或推荐模板,给出档案馆整体安全风险的评判依据,从而增强《指标体系》在评估过程中的一致性、可用性和灵活性,便于档案馆直观、科学地完成安全风险识别、分析、评价以及风险管理措施决策工作。

  3.着眼风险评估性能效率,开发实用可信软件工具

  《“十四五”全国档案事业发展规划》提出要强化档案安全风险评估和排查工作,提升档案安全风险评估管控能力和隐患排查治理成效。这就需要档案馆不仅要重视风险评估模型框架、指标体系的设计,更要结合政策、法律、技术限制、用户需求等实际因素,开发出面向终端用户的实用服务和可信工具。

  DiAGRAM采用B/S架构,将前端Web网页与后端底层模型分离开,通过一组API接口连接两者,这种软件体系结构把系统核心功能集中到服务器端,简化用户端系统开发运维成本和工作量。同时,DiAGRAM的软件服务和工具满足英国和万维网联盟有关Web网站内容可访问性的标准要求,实现高度可操作性,使用户无论在PC端还是在移动端都能获得快速稳定的交互体验。因此,档案馆应将评估指标、评估内容、评估办法、评估依据等转化为平台适用性强、运行稳定、用户体验良好的软件工具,提高档案馆安全风险评估的效率和可信度,从而切实增强档案管理者实施最佳风险管理策略的决策能力。在软件工具开发时,可采用面向服务的软件架构,便于档案馆根据环境和业务需求变化灵活分解、组合、扩展和再利用。在前端网页实现时,应尽可能只使用HTML语言实现网页结构样式,增强跨浏览器类型和版本的兼容性,降低软件功能或服务对第三方插件的依赖。在前后端数据交互方面,应利用用户端本地缓存减少与后端的访问请求次数和规模,既提高数据处理效率,又能最大程度减少档案馆敏感信息泄露风险。必要情况下,应允许用户将后端模型下载到本地进行后续使用。此外,可根据我国档案馆建设规模、职能等,在软件中内置不同类型档案管理机构的安全风险评估参考模板,作为档案管理者的快速入门指南和不同类型档案机构进行安全风险评估的比较基准。

  参考文献:

  [1]Barons M J,Fonseca T C,Merwood H,Underdown D H.Safeguarding the nation’s digital memory:Bayesian network modelling of digital preservation risks[EB/OL].[2022-08-15].https://warwick.ac.uk/fac/sci/statistics/staff/academic-research/barons/publications/digital_preservation_statistical_modelling_1.pdf.

  [2]Hanea A,Mc Bride M,Burgman M,Wintle B,et al.Investigate Dicuss Estimate Aggregate for structure expert judgement[J].International Journal of Forecasting,2016(1).

  [3]Caplan P.Library technology reports[EB/OL].[2022-08-15].https://journals.ala.org/index.php/ltr/article/view/4224/4809.

  [4]World Wide Web Consortium.Web content accessibility guidelines(WCAG)2.1[EB/OL].[2022-08-15].https://www.w3.org/TR/WCAG21/.

  [本文系国家社科基金青年项目“‘互联网+’背景下多媒体档案知识发现研究”(项目编号:19CTQ033)的阶段性研究成果]

  作者单位:国防大学政治学院

  责任编辑:王辉