浅析人工智能技术在档案工作中的应用

发布时间:2024-10-22 09:27:37被阅览数:1633 次信息来源:《四川档案》

  作者:陈忠建 廖勇军
  近年来,人工智能技术飞速发展,并给各行业带来了巨大的变革,推动各行业朝着智能化方向发展。《“十四五”全国档案事业发展规划》提出“积极探索知识管理、人工智能、数字人文等技术在档案信息深层加工和利用中的应用。”和“加强大数据、人工智能等新一代信息技术在数字档案馆(室)建设中的应用,推动数字档案馆(室)建设优化升级。”,明确要求将人工智能技术融入档案工作中,进一步增强档案利用和服务能力,提高数字档案馆(室)智慧化水平。人工智能赋能档案工作,为档案工作提供了动力,使之从传统化到智能化,再到智慧化,推进档案工作转型升级,最终改善档案工作效率和服务质量。
  1   人工智能发展现状
  人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。经过70多年的发展,特别是计算机技术突破和深度学习算法提出后,人工智能在自然语言处理、计算机视觉等多个方面取得了巨大的发展。
  自然语言处理是研究实现人与计算机之间用自然语言有效通信的理论和方法,它能够让计算机理解和生成人类自然语言。大语言模型是自然语言处理的进一步发展,大语言模型能够处理文档的分类、翻译、信息检索、自动文摘、问答系统、信息抽取和情感分析等。
  计算机视觉是一种让计算机具备视觉判断和视觉感知能力的技术,使计算机能够看到物体、识别物体类型和判断物体的行为。这项技术广泛应用在安全监控和保安领域,对危险物体和行为自动识别并发出警报,实现安全预警。
  2   应用原则
  2.1  保障档案安全原则
  档案安全是档案工作的底线,也就是人工智能应用的必须条件。人工智能安全主要涉及档案信息化安全范畴,包括档案内容安全、信息系统安全和算法安全。档案内容安全要求人工智能技术不能对档案数据造成损坏或丢失,也不能够越权访问档案数据。信息系统安全要求人工智能系统具有防止泄露和篡改档案内容的能力。算法安全要求算法生成的结果应该来自于原始档案数据,不违反其内容,不违背原始档案的含义。
  2.2  遵循档案规范原则
  《中华人民共和国档案法实施条例》明确指出应当归档的材料需要规范整理,在实际应用人工智能时,需要根据各级档案主管部门或行业主管部门的要求明确遵循规定规范,确定人工智能需要计算的档案数据、档案内容信息和生成成果,成果要符合来源可靠、程序规范、要素合规的要求。
  2.3  便于档案开发利用原则
  档案是历史的真实记录,是党和国家的宝贵财富,具有重要的价值。一是深度挖掘档案价值,利用人工智能技术对档案数据进行深度挖掘,建立更多的专题库、知识库等,提高对档案价值的理解和利用水平。二是增加档案使用的便捷性,根据社会各方面对档案使用的需求,分权限的提供个性化、定制化的档案开发利用服务。利用全文检索、语音检索、图像检索等技术手段快速找到所需档案,提高档案查询效率。
  2.4  技术适用原则
  应用人工智能技术时,需要考虑该技术在生产环境实际应用效果和风险,是否能够达到设计期望。一是技术可行性,人工智能技术发展迅速,在设计阶段应该严格考虑技术的成熟度、实施难度、维护难易度以及优化改进难易度等因素。二是技术安全性,人工智能需要大量真实档案作为数据来源,必须要有相应的安全保护措施,确保档案安全,防止泄密,非法访问、非法修改档案等可能的威胁。三是技术经济性,人工智能技术的实施通常需要大量的投入,包括开发、维护等成本。充分考虑到人工智能的建设成本、每年维护成本等。
  3    应用分析
  3.1  档案数字资源建设
  档案数字资源建设过程中,合理地选择和运用人工智能技术,可以在收集、管控和转型等方面提供更高的质效。设计相应的人工智能模型进行档案资源自动化处理或辅助管理者决策,能够全面提升档案数字资源建设质量和工作效率。
  档案数字资源收集方面,人工智能的优势主要体现在自动化地进行海量的数据资源的鉴定、分类、整理、建立目录数据库等归档环节。人工智能可以对电子文书、电子照片、录音、录像进行智能收集、自动分类、判定保管期限和密级,提取档案元数据。
  档案数字资源管控方面,人工智能技术推动档案数字资源管控向智慧化、现代化转型升级。一是借助人工智能技术及时高效开展档案开放审核。电子档案开放审核过程应用大语言模型提取档案信息、摘要和基于规则和语义的开放审核模型,自动输出人工智能审核结果,最后由管理人员最终确认,提高档案开放审核结果的准确性、实效性和开放审核工作效率。二是人工智能技术推动档案安全智能化管理。档案安全是档案管理中的重要工作,档案安全系统中应用计算机视觉和机器学习技术能够提高安全系统的智能化水平。在视频监控系统中应用火苗、烟雾等异常目标检测模型,可以有效的提前发现异常,发出报警,提醒管理者。在门禁系统或档案管理系统中应用人脸识别、指纹识别等技术,可以确保已授权的人员访问档案信息。姿态估计模型可以对人的行为状态检测和预测,对可能损坏档案的行为进行及时提示。
  档案资源数字转型方面,人工智能技术在传统载体的文书档案著录过程中被广泛应用。在纸质档案的著录过程中面临的困难主要是目录著录效率不高,著录质量和人为因素相关。著录过程中应用OCR和神经网络技术可以实现档案著录、分类、保管期限判定和鉴定划控等工序的自动化,提高档案目录著录效率和质量。OCR识别结果作为大语言模型的数据输入,进行信息抽取,基于规则关键字匹配,实现自动化档案分类、保管期限判定和鉴定划控。
  3.2  档案资源开发利用
  人工智能技术深度挖掘档案资源的内在价值,提供多元化档案展现形式,更好更便捷的满足社会各行业对档案信息、档案文化的多样化、个性化和定制化查阅利用需求。
  建设档案专题库、知识库。大语言模型能够将分类收集整理的各行业、各领域的档案数字资源进行挖掘,重新组织内容的构成形式。多模态大语言模型能够处理文字、视频、图像、音频等数据输入,将不同记录方式的档案数据进行联合训练,学习不同记录方式档案之间的关联,形成档案数据融合,产生更加丰富的、综合的智能问答专题库、知识库。同时,大语言模型强大的输出表达能力使档案专题库、知识库查阅利用更加高效。
  档案编研方面,一是利用高频词和关键词智能选题,人工智能对海量的档案数据归纳、分析、提炼、聚类,发现并识别档案数据中高频词和关键词,作为编研选题的参考数据支撑。二是智能汇聚编研素材,根据编研题目的关键词进行档案数据的汇聚,利用检索技术提取和汇总与编研题目相关联的档案数据作为编研素材。三是智能形成编研初稿,编研素材作为大语言模型的训练数据集,形成大语言模型的编研材料专题库,通过自动摘要技术生成编研初稿。四是完善初稿,编研者可以通过对大语言模型的编研材料专题库的信息提取、知识图谱和提示词问答等方式深层次挖掘编研素材,完善编研成果。
  档案检索利用方面,一是文本检索,引入人工智能语义分析技术,赋予档案检索系统理解自然书写表达能力,实现问答式和不依赖关键词检索档案。通过深度分析检索问题语义与档案内容语义之间的关联,精准快速找到目标档案,解决检索关键词必须与档案文本内容完全一致的问题。二是音视频检索,音频档案通过语音识别技术对音频内容转译成对应的数字文本内容,对关键词进行标注,记录相应的音频播放时间点。视频档案通过目标识别、人脸识别、OCR识别等场景识别技术对每帧视频进行处理,提取物体、人名、文字等关键信息,并记录这些关键信息的播放时间点。对这些关键信息进行便于检索结构化处理,形成音视频检索基础数据支撑,实现音视频内容检索并能自动定位音视频档案和播放时间点。三是照片检索,照片档案处理同视频帧处理一致,通过人脸识别、OCR识别、提取特征等技术识别和记录照片中人脸数据、文字和整张照片特征,再将人脸数据再转译成对应的人名,就可以用人名等文字来检索照片档案。四是知识图谱,通过自然语言语义分析算法,匹配档案之间的关联关系,形成档案内容语义关系网的知识库,对档案的多维度标注,直观展示与检索内容相关全部档案数据之间的逻辑关系。五是语音检索,通过语音对话方式进行档案检索,将语音翻译成文字用于档案内容检索。六是智能推荐,推荐系统通过统计、归纳、机器学习等算法自主分析档案检索利用者的历史行为和兴趣爱好,主动推荐最新开放档案和影响档案检索结果的排序,帮助档案检索利用者及时快速获取满意的结果。
  3.3  档案安全
  采用合适的人工智能技术是保护档案数据安全的有效手段之一。
  档案环境安全方面,门禁、监控、消防等安全系统引入人工智能技术,对现场进行实时检测和预测,通过自动化监控和智能化预测,自动调节档案库房的温度、湿度,智能对异常情况发出警报提醒。
  信息安全方面,考虑到档案数据的特殊性,应用人工智能技术时,优先考虑本地部署,让所有原始数据,计算过程和产生的数据都在本地服务器进行,确保数据安全。运用行为分析预警技术,对用户操作档案行为模式进行实时分析和预测,发现异常行为,及时阻止并发出报警,预防各种安全事件的发生。
  4   结语
  人工智能技术赋能档案工作,能够在一定程度上提高档案工作的质效,推动从数字档案到数据档案,再到智慧档案的发展,提高档案收集、开放、开发、利用的准确性和实效性。同时,应用人工智能技术也要考虑到其风险,包括经济风险、技术风险、安全风险等。
  参考文献
  [1]蔡亚琼, 陈庆堂. 基于图片的数字照片档案快速检索技术应用[J]. 自动化应用, 2022(09): 41-44.
  [2]崔伟, 熊延萍, 等. 人工智能技术在音视频档案管理中的应用原则及应用场景分析[J]. 北京档案,2023(12): 30-32.
  [3]余英杰. 基于卷积神经网络的图片深度学习和人工智能技术在照片档案管理领域应用研究[J]. 中国档案, 2023(01): 31-33.
  作者单位:四川省档案科学技术研究所