大数据下档案管理安全隐私保护不确定性评估研究

发布时间:2024-01-13 08:39:33被阅览数:375 次信息来源:《中国档案》

  文/王小萍  王万军  马争朝

  档案管理的大数据不但跨领域,而且信息量大、结构类型复杂,加上数据信息表现形式多样、数据内部关联隐蔽等特点,多源异构大数据融合的复杂性和不确定性使得传统的匿名和泛化等隐私保护技术几乎无法生效。大数据产生、获取和更新的高速性带来实时性数据分析与处理的要求,使得传统的隐私保护算法遇到了极大的瓶颈,大规模性数据采集技术、新型存储技术以及高级分析技术使得大数据的隐私保护面临更大的挑战。

  “大数据下档案管理安全隐私保护不确定性评估研究”项目2020年度被甘肃省档案局列为档案科技项目立项计划,2021年年初开始课题研究工作,2022年年底通过甘肃省档案局的验收,2023年1月项目成果获得国家档案局优秀科技成果三等奖。该项目成果的实施进一步优化了大数据产业发展环境和信息的隐私性及数据信息的安全性,具有一定的推广价值。

  研究意义及背景

  档案管理隐私风险评估是对隐私系统风险进行的全面、系统的估计和衡量,造成档案管理隐私风险的因素包罗万象,既有人为因素,亦有客观原因;既有技术因素,亦有设备原因;既有内因,亦有外因;既有系统自身脆弱性因素,亦有数据泄露原因;既有系统不完备性因素,亦有人为蓄意攻击原因等。总而言之,档案管理中的隐私风险是指档案信息隐私中数据泄露发生的可能性及产生的负面影响,档案管理隐私风险评估就是对档案信息系统隐私风险发生的可能性及负面影响进行识别同时规避风险。因此,针对档案管理大数据发布的隐私保护,采用不确定信息分析与处理的方法,研究大数据的融合表示方法、感知推理过程、隐私规则建立、隐私风险评估等显得尤为必要。

  国内外针对集中式档案管理数据发布的隐私保护技术研究已经取得了一定的成果,许多学者开展了在档案管理中隐私保护模型、档案管理中数据隐私保护实现算法、匿名数据可用性、隐私数据风险评估、隐私数据挖掘等方面的研究,并在取得行之有效的解决方案。但是,这些隐私保护的规则和算法大都针对某些特定类型的外部攻击方式设计,对于静态的、少量信息发布处理是有效的,面对大数据的大规模性、高速性和多样性等特征,传统的隐私保护方法显得力不从心,并存在很多亟待解决的问题。本项目通过不确定信息处理的集对分析、可拓学等理论,研究了档案管理大数据不确定性信息的感知与表示方法、档案管理隐私风险的评价体系和不确定环境下的大数据隐私保护发布方法,对档案信息系统隐私风险中发生的可能性及负面影响进行识别。

  课题研究内容

  本项目采取阶段化、递进式的研究方法,从多源异构档案管理大数据的关联表示方法切入,借助机器学习、情景感知、相关分析、概率图等方法,将关系松散、模态多样的多源异构大数据泛化表示为适当的数据结构;通过对档案管理信息数据属性的进一步梳理,将分散的数据结构整合为统一的实体关联图。主要开展如下4方面内容的研究:

  1.大数据档案管理安全隐私多机构LBS云系统安全模型研究

  BS业务所依赖的移动用户位置信息是能够反映出用户日常生活和行为习惯的一个重要敏感因素,一旦暴露可能会导致用户兴趣爱好、生活习惯、健康状况、宗教信仰、政治倾向等个人隐私信息的泄露。为了在LBS服务过程中保护用户的物理位置信息不被滥用,大部分的LBS系统引入可信赖的第三方,根据用户个性化的隐私保护需求采用不同的位置隐私保护算法对位置信息进行处理。ABE机制中也需要可信赖的授权机构,负责产生系统的公共参数和密钥。用ABE机制对LBS业务数据加密时,不能单纯地将上述两种功能简单叠加后交由第三方实现。一方面,传统可信赖第三方平台的设置在查询高峰时会成为系统处理的瓶颈,并且容易成为攻击者的首选目标,加之近年来陆续出现了一些有关第三方机构的丑闻事件,使得第三方机构的独立性与权威性大打折扣。另一方面,基本ABE的单授权机构情形不能满足移动云计算环境对不同机构协作和安全性的需求。

  2.档案管理大数据隐私信息不确定性评价

  对档案管理大数据隐私的不确定性评价和度量主要从三个方面开展研究:档案管理大数据动态隐私评价和度量方法研究。目前的隐私保护度量方法主要针对传统的静态隐私保护模型或对其进行改进,使用传统的静态数学模型是无法处理的。尤其是在大数据背景下,建立不同对象在不同环境中的隐私保护度量评价指标,必须要采用大数据分析工具和动态多元函数模型方法。档案大数据不确定信息隐私度量模型研究。档案管理大数据应用下的用户消费习惯或信息推送往往形成潜在的隐私风险,攻击者通过对数据的挖掘或时序分析能够获得潜在的档案管理隐私信息。在直觉模糊和集对分析理论基础上,给出档案管理大数据直觉模糊集对(IFSPA)算子,直觉模糊集对是直觉模糊和集对分析的有机结合和拓展。在此基础上,针对档案管理大数据中信息的直觉模糊集对确定—不确定之间关系给出求信息权重的方法。从而建立档案管理中隐私信息不确定性评估的全新理论模型。

  3.档案管理下大数据隐私评估知识图谱研究

  主要从两个方面开展研究:大数据下档案信息数据的存储、管理、查询、信息挖掘和知识图谱的语义表达;档案数据信息语义搜索、建立基于关键词的知识图谱语义搜索模型、分面的知识图谱语义搜索及表示信息的档案管理知识图谱语义搜索。从而在档案管理大数据智能问答、智能信息推送建立相应的档案管理图谱系统。

  4.管理档案大数据信息隐私不确定建模及保护研究

  档案管理大数据隐私信息的不确定性建模与保护主要研究两个方面的问题。一是研究管理档案大数据隐私保护发布中的不确定性问题及其内在联系。以海量信息发布对匿名模型、关联属性、划分结构、隐私预算等方面的要求及其各方面的相互制约关系,为档案管理信息建模提供理论。二是建立相应的档案管理大数据不确定信息建模和表示方法。结合可拓数学、集对分析等不确定性分析的有效方法,建立面向动态大数据发布与更新的同异反函数模型、准标识模型、隐私信息依赖关系模型、隐私发布模型等。

  课题研究创新点

  一是采用隐私ABE机制对档案管理大数据隐私业务数据加密处理,对不同机构协作和安全性需求形成堵塞瓶颈及第三方机构访问独立性进行优化。二是建立了不同对象隐私保护度量评价指标及复杂语义计算隐私保护度量模型,在档案管理大数据中以算子(IFSPAOWA、IFSPAWA、IFSPAWG、IFSPAHA、IFSPAOWG)确定—不确定之间关系信息的权重隐私评估模型计算。三是开发档案信息数据知识图谱的语义表达模式和语义搜索、实现基于隐私关键词的知识图谱语义搜索模型中大数据智能问答、档案管理知识图谱可视化、智能信息推送问题。四是结合面向动态大数据发布与更新的同异反函数模型及隐私发布模型档案管理中数据不确定信息建模和表示方法,解决档案管理海量信息发布匿名模型的链接攻击及匿名信息溯源。

  针对档案管理大数据融合可能导致的数据关联性增强进而泄露用户敏感信息,开展大数据发布隐私保护的不确定性分析与建模。建立用户隐私信息的分类,根据用户对隐私信息的重视程度建立清晰明确的隐私等级划分和表示方法。通过不确定信息分析方法研究隐私泄露的程度和风险,设计合理的隐私风险评估准则和隐私保护评价体系,实现对不同对象在不同环境中的隐私保护程度和隐私保护效果的动态衡量,实现企业协同办公及信息隐私数据安全,进一步优化大数据产业发展环境和信息的隐私性及数据信息的安全性,为企业降低运行成本的同时带来更多增值服务,进一步提升企业的经济效益和社会效益。

  应用前景

  通常用户对加密存储数据进行利用时,一般会形成数据孤岛,为了获取丰富的数据,需要构建准确的数据信息模型,通过大数据档案管理安全隐私多机构LBS云系统安全模型,能满足用户档案信息个性化隐私保护需求,对不同类型的数据,如数据收集、数据保险库、数据清理室和无需信任的数据市场,采用ABE机制业务数据加密,提高了第三方机构访问的独立性与权威性,有效解决查询高峰时形成的堵塞瓶颈,同时能够满足移动云环境对不同机构协作和安全性数据隐私的保护,使数据高价值信息得到有效保留。

  针对目前隐私保护模型评价的缺陷及不足,采用不确定信息处理理论——集对分析、直觉模糊等方法,建立了隐私保护度量,对不同对象在不同环境中的隐私保护度量评价指标进行集结,从而进行数据风险评估,有助于在数据安全风险评估实施过程中能集中化地分析多源安全问题,降低对风险信息评估的主观性,建立定量量化风险评估,为风险决策提供理论依据。

  结合档案管理海量信息发布匿名模型、关联属性、划分结构、隐私预算等相互制约关系,利用知识图谱进行语义搜索和可视化分析处理,为档案数据智能问答、智能信息推送等新技术提供了理论支撑和安全信息保障。

  面向动态大数据发布及更新问题,利用集对分析理论的联系函数建立同异反模型,对隐私信息的依赖关系、隐私发布等随机数据进行不确定性信息建模和分析,是研究隐私信息保护的新途径和新技术,该理论有着广阔的应用前景。

  [本文系2022年国家档案局科技项目获奖成果]

  作者单位:兰州文理学院

  责任编辑:王辉