档案文化遗产数智化保护策略与技术研究:以古籍文献为例

发布时间:2024-09-19 20:00:56被阅览数:5 次信息来源:《山西档案》

  作   者:吴海春 林志益

  摘   要:古籍文献是中华优秀传统文化的重要载体,具有唯一性和不可再生性。由于当前古籍文献面临着老化、破损等内外部诸多威胁,亟须创新保护策略和保护方式。以古籍文献作为研究对象,在分析古籍文献保存现状以及传统保护方法局限性的基础上,进一步阐释运用数智化策略与技术实施古籍文献保护的必要性与可行性,着眼于古籍文献数智化的不同阶段,提出系统性古籍文献数智化保护策略;同时重点介绍高分扫描、光学字符识别、3D建模、混合现实等关键数字技术在古籍保护中的应用与优化,剖析古籍、数据存储传输、人机智慧交互等方面的技术挑战及解决思路的复杂性和多样性,旨在为新时代背景下的档案文化遗产保护提供理论借鉴。

  关键词:档案文化遗产;数智化保护;文化遗产数智化保护;古籍文献

  古籍文献作为传承历史文化的载体与重要的物质文化遗产资源,蕴藏着深厚的智慧与价值,是民族、国家的文化根基,是总结过往、洞察现在、展望未来的百科全书。古籍文献具有唯一性和不可再生性,其保存状态直接关系到文化遗产的利用与传承。随着时间的推移,古籍文献原件由于环境变化、保管不善等原因,面临着纸张老化、风化、脆化,笔记渐隐乃至虫蛀、霉变等诸多不利因素的威胁,古籍文献的保存与保护面临着严峻的挑战。目前,我国现存古籍数量巨大,仅“十三五”古籍普查以来已有270余万部,这些珍贵的古籍文献资源一旦损坏难以复原,将给民族、国家乃至整个世界带来不可估量的损失[1]。虽然当前档案文化遗产管理与实践主体已采用多种保护方法开展古籍保护,如环境控制、采用修复技术等,但是面对海量古籍文献资源,传统保护手段已无法完全适应当前保护和利用的需求。因此,亟须采用数字化手段对原件进行再生性保护,提升古籍资源的管理、检索和利用水平,这已成为新时代下档案文化遗产保护领域的重要议题。

  1  档案文化遗产数智化保护的必要性与可行性

  1.1 传统保护方法的局限性与挑战

  传统的古籍文献保护方法主要侧重于通过物理修复和环境控制对古籍文献原件实施保护,虽然能在一定程度上延缓古籍老化,但是这些方法存在着诸多局限性。首先,物理修复成本高昂、周期冗长,需要场地、资金、人才、技能的支持,且部分损伤无法复原,修复过程可能会对原始资料造成二次损害。其次,原始古籍文献保护与开发利用之间存在矛盾,并且难以平衡,过度开发利用会导致古籍文献的老化和损坏加剧。再次,优化和实施环境控制虽然能延缓古籍文献的老化,但是没有从根本上解决古籍文献面临的多重隐患。最后,传统保护方法难以应对突发性、破坏性灾害事件,自然灾害、人为破坏等不可抗力因素使得实体古籍面临损毁甚至是永久性损坏的风险。

  传统的保护和利用方式已无法应对多维度风险和满足多元化需求。随着数字技术与智能工具不断推陈出新以及数字人文研究领域不断拓展深化,以古籍文献为代表的档案文化遗产当前面临的问题和挑战凸显了创新性、技术性、智慧性保护手段的必要性与紧迫性。

  1.2 数智化保护的优势与价值

  相较于传统方法,数智化为古籍文献的保护和传承提供了全新思路与解决方案。首先,通过非接触式高分扫描、光学字符识别、数字图像处理、深度学习、自然语言处理等技术手段完成古籍文献数智化处理,实现古籍原貌的完整记录和永久保存,降低对古籍文献原件的依赖,是对原件的一种“活化与再生性保护”。其次,古籍文献经过数字化处理后便于进一步转化为可组织、可检索、可利用、可共享的信息资源,利用数智化技术对古籍内容进行深度分析和研究,如文本挖掘、语义分析等,能够进一步拓宽古籍文献研究的方法和路径。最后,利用互联网与社交媒体平台,可以打破时空限制,让更多人接触、了解和研究古籍,促进学术交流与文化传播。

  更为重要的是,在数字人文视域下,数智化处理与数字技术为跨学科、多维度的古籍研究和保护提供了新的技术手段、方法工具与研究路径,使得深度挖掘古籍蕴含的历史价值、文化价值成为可能。例如,基于人工智能的古籍自动校对、基于区块链的版权保护等创新应用,为古籍的深度研究和广泛利用打下坚实基础。古籍数智化是文化遗产活态传承的重要途径,这不仅能让古籍“活下来”,更能让其“活起来”[2]。

  基于现存古籍文献的保存现状,传统保护手段的局限性日益凸显,数智化为解决这一难题提供了新思路、新方法,成为新时期档案文化遗产保护的重要议题。古籍文献的数智化保护不仅是对文化遗产保护方法的创新,还是对古籍保护领域传统理念的突破和拓展。通过利用现代科技手段,打破传统保护方法的局限,不仅可以在物理形态和信息内容层面对古籍文献实现全面保护,更能够充分挖掘古籍文献资源的历史价值和文化价值,促进古籍文献资源的共享与传播,为古籍文献的长期保存与研究提供新的途径和手段。让古籍文献焕发全新生命活力是文化遗产保护领域的需要,是适应现代科技发展和满足社会公众文化需求的必然选择,也是坚持文化自信、弘扬中华文化的时代路径,更是时代赋予档案人的光荣重任与崇高使命[3]。

  2  古籍文献数智化保护策略

  2.1 数智化前的预处理工作

  进行古籍文献数智化保护需要完成预处理工作。首先,要利用元数据、知识图谱等语义技术对古籍文献的属性和关系进行描述与组织,将古籍文献转化为机器可读和可处理的结构化数据。对古籍文献的梳理与分类有助于揭示不同古籍文献之间的历史特征和年代特征。其次,要邀请垂直领域专家对古籍文献的属性与状况进行深度鉴定与全面评估,明确其各方面的价值,判断其数字化处理难度,采取更具针对性和科学性的数字化方案与质量控制措施。

  2.2 数智化过程中的关键策略与质量控制

  古籍文献数智化保护还需要制订关键策略与实施质量控制。馆藏古籍数量巨大,需要依据综合价值、利用频率、开发难度、公众需求等参数进行评估,协调优化资源配置,分步、分类、分档实施数字化。此外,数智化过程中还要注重技术方式的多样性与针对性,例如平衡扫描精细度、扫描周期、扫描成本之间的关系,确保数字化进度和质量协调统一。

  2.3 数智化后的管理与实践

  古籍文献数智化保护后需要进行有效的管理与实践。首先,需要建立可靠的存储和备份体系。除采用传统存储介质与方式外,可以探索和引入分布式存储、区块链存储、云计算与云存储、数字水印、加密传输等技术,利用其去中心化、防篡改、可追溯、可循迹、容灾备份等优势,确保古籍文献等数字档案安全与可靠,实现古籍文献既高度开放又安全可控。此外,存储系统要定期开展数据监测和灾难恢复演练,并与其他文博机构开展异地备份合作,达成“异地、异质、异构”的三异存储,进一步提升数字档案存储的可靠性。

  古籍文献数字档案是宝贵的人类文化遗产。高度开放共享,服务于学术研究和社会公众是古籍文献焕发全新“生命活力”的有效路径。但是囿于部分珍贵古籍文献涉及隐私、机密、版权等问题,要在综合考虑安全性、时效性、针对性等特征的基础上,制订差异化的开放共享策略,设置不同等级的开放条件。

  3  古籍文献数智化保护技术

  3.1 数智化保护技术概览

  3.1.1 现代扫描技术

  通过高清影像设备将古籍转化为数字图像是实现其再生性保护的前提。现代扫描技术不断更新迭代,传感器精度与场景识别能力显着提高,图像分辨率更精细,色彩还原更真实、准确。目前常用的古籍扫描设备包括高分辨率平板扫描仪、非接触式扫描仪、大幅面扫描仪、手持扫描仪、高速扫描仪等。扫描得到的原始影像资料经过校正、裁切、拼接、还原等图像处理步骤后可作为原貌级古籍数字化成果长期保存。

  3.1.2 (光学字符识别)OCR 技术

  通过现代扫描技术得到的古籍影像数据无法直接用于文本检索和知识挖掘,需要通过OCR(Optical  CharacterRecognition)技术将图片中的文字信息进行识别、提取,并转换为可编辑、可检索的电子文本。目前常用的OCR识别软件有ABBYYFineReader、OmniPage等。古籍文献OCR面临繁体字、异体字、错别字较多,版式复杂,文字密集,排列混乱,原迹渐隐,图像退化等诸多挑战,识别效率与准确率难以保障,需要辅以人工校对并持续优化OCR算法与研发垂直领域OCR软件。近年来,深度学习模型如CRNN(ConvoLutionalRecurrentNeuralNetwork)、RARE(RobusttextrecognizerwithAutomaticRectification)等在古文字识别方面取得了较大进展。

  3.1.3 3D 建模与虚拟现实技术

  除了2D平面的图文信息之外,古籍的装帧形制、纸张肌理等也蕴含重要的版本价值。3D建模技术可以高精度复原古籍的立体信息,混合现实技术可以营造沉浸式古籍阅读体验。此外,3D扫描、点云拼接、三维重建等技术在珍贵古籍的数字化保护中应用日益广泛,如敦煌遗书、玉历等重要档案文献的数字化保护就使用这些技术。

  3.2 关键技术详解

  3.2.1 专业扫描仪的应用与优化

  古籍扫描对设备的分辨率和色彩还原能力要求很高,需要引入特调参数和特殊设计的高精度专业古籍扫描仪。但高分辨率扫描会带来扫描周期长、操作复杂、数据量大、环境要求严格等问题。需要通过优化扫描参数、升级传感器、并行扫描等方式来提高扫描效率,配套古籍翻页机械手等精密辅助设备来降低快速扫描过程中的噪声,还要实时监控环境温度、湿度并进行防尘防护。

  3.2.2 OCR 识别率的提升与优化

  传统的OCR模型很难准确识别古籍中的生僻字、异体字、模糊字。目前主要通过专用的古汉语字符集、语料库训练来优化OCR模型,如使用大规模古籍异体字字典扩充识别字符集,利用大量标注的古文语料对模型进行训练等。此外,知识蒸馏、迁移学习、小样本学习等机器学习方法也可用于提升识别效果。后处理环节可结合古汉语词典等知识库对识别错误进行校正以提高准确率。

  3.2.3 3D 模型的深度应用

  3D建模技术不仅可以记录古籍的高保真外观信息,还可以生动展现古籍的内部结构。3D模型数据可用于线上虚拟展厅、基于混合现实的古籍阅读等,突破传统平面化展示的限制。在虚拟修复领域,可利用3D模型对古籍破损、变形、残缺等情况进行分析,指导古籍文献的修缮工作。将3D打印技术制作的古籍高仿真复制品用于多重展示,可以有效减小原件的使用与损耗,促进古籍的传播与利用。

  3.3 技术挑战与解决方案

  3.3.1 古籍文献的复杂性与多样性问题

  古籍文献在纸张、墨色、版式、装帧等方面存在很大差异,给数智化保存与利用过程带来一定挑战,需因地制宜制订数字化规范和标准,统一技术路线。可针对不同时代、不同版本的古籍,在前期深度调研与充分综合评估的基础上,依据文献特征与实际状况,分门别类地设置扫描参数、元数据着录项等。对品相较差、破损严重的脆弱古籍,应制定详细的操作规程,必要时优先进行修复加固处理。

  3.3.2 数据存储与传输的效率问题

  古籍数字化后的高清图像、3D模型等占用存储空间大,网络传输压力大,应采用适合长期保存的文件格式与保存介质,并定期迁移转换,防止数据失效、损坏、丢失等。存储设备还应配置冗余备份,并采取异地容灾备份等方式确保数据安全。在网络传输和用户访问环节,可通过压缩、数据分片、渐进式加载等方式优化体验[4]。此外,构建覆盖范围广、传输速率高的文化遗产专网也是提升古籍文献数字化效率的重要举措。

  3.3.3 用户界面与交互设计的优化

  目前,古籍文献数智化成果的开发、利用、共享方式创新度与个性化不足,多为线上查阅、翻页浏览、全文检索等,需要发挥智能技术的作用优势来优化用户的体验。一方面,通过优化人机交互界面的设计逻辑,用户可以自定义访问并自主选择阅读方式。引入语音识别、手势识别、眼动追踪等新型人机交互技术和自然语言处理、深度学习、神经网络等智能技术,提供更自然的人机交互逻辑与对话方式[5]。在虚拟现实场景中,不仅要着重优化三维交互设备的佩戴舒适性,还应关注不同用户的差异化需求,为用户提供个性化、客制化、精准化的古籍文献知识服务。

  参考文献

  [1]周安涛.非物质文化遗产数字化保护与共享研究[J].山西档案,2019(2):136-138.

  [2]周耀林,吴化.数字人文视野下少数民族档案文献遗产数字化保护研究[J].档案学研究,2022(5):123-129.

  [3]孔懿璇,胡莹.LAM跨馆协同视域下的丽江东巴文化遗产资源建设研究[J].山西档案,2023(2):158-167.

  [4]冯永恒,黄伟,方辉.知识·遗产·记忆:田野考古档案资源智慧化转型路径探析[J].档案学研究,2022(5):81-88.

  [5]黄案.面向虚实交互的档案遗产跨资源互动模型研究[J].山西档案,2023(6):172-175,171.

  【基金项目】2023年度海南省哲学社会科学规划课题“海南地方文献典籍传承性保护研究”[课题编号:HNSK(ZC)23-192)]。

  【作者简介】吴海春(1982—),女,汉族,海南海口人,琼台师范学院副研究馆员,硕士,研究方向:阅读推广及古籍保护;林志益(1984—),男,汉族,海南海口人,琼台师范学院馆员,学士,研究方向:图书资料管理。