照片档案数字化成果备份探索与实践——基于中国照片档案馆底片高清数字化项目的分析

发布时间:2024-08-05 19:21:20被阅览数:207 次信息来源:​中国档案报  作者:井辉辉

  中国照片档案馆是我国集中管理国家照片档案的文化事业机构,馆藏实体底片约两百余万张,内容涵盖政治、经济、军事、科技、文化、教育、体育等方面,基本为新华社记者拍摄。其中,记录党和国家领导人生平活动的影像为其独有核心馆藏。

  为更好实现馆藏实体底片的安全保管和有效利用,中国照片档案馆对约160万张实体底片进行无接触式高清数字化扫描。项目落地实施约2年时间,采用流水线加工模式,工作环节主要包括底片出入库、底片属性著录、高清数字化翻拍、著录信息校对、图片优化、异质异地存储备份、第三方全面质检与监理等。目前,项目已顺利收尾,实现实体照片、数码照片、照片说明、底片属性、数字底片、实体底片等全要素管理。

  应用实践

  高清数字化成果备份。近年来,中国照片档案馆积极探索数字照片档案长期保存策略,建立多套制度规范,积极推进基础设施建设。本项目为其第二次开展的大规模档案数字化工作。2000年,首次照片档案数字化成果收录进“中国照片档案馆数据管理系统”。通过该系统,可实时在线将新华社各线路发稿照片收集归档。

  在此基础上,本次数字化项目通过底片号流水排序逐张清点,将底片属性著录成果通过著录专用程序补充进系统,与原照片信息对应保存。同时,将供日常使用的数字化成果在线存储,方便调阅。长期保存的高清数字化成果采用磁光电一体化设备异质异地备份。存储分区分为电/磁存储区和光存储区。

  技术参数和存储格式。采用用于文化遗产高清数字化的飞思胶片翻拍解决方案及中国图片社自主研发的专业翻拍台,扫描得到超高分辨率和精度的数字化成果。主要技术参数包括但不限于:分辨率3000dpi,位深16位(灰度)、48位(彩色)。部分120测试底片在该参数下采集样本大小可达500M。

  参照现行数据管理方式,可选择RAW、TIFF、JPG多种格式保存。其中,RAW格式工程文件可最大程度还原数码底片无损信息。TIFF作为比较主流的高精度存储格式,便于调档备份。JPG格式存储和调阅速度快,有利于日常利用。

  数字化成果编码。参照《照片档案管理规范》对底片号进行编码,底片号如同身份证号,是底片对应产生的数字化成果唯一编码,与实体底片逐张对应。格式为“全宗号-保管期限代码-张号”,在同一全宗同一保管期限内底片从“1”开始顺序编号。

  如遇“一号多底”,则需翻拍多张,并在原底片号基础上添加阿拉伯数字以示区别,如“全宗号-保管期限代码-张号-1”等。如一张照片由多张照片拼版而成,则将“拼版照片”对应的原底片号后添加英文字母,如“全宗号-保管期限代码-张号-a”等。其他特殊标识以此类推,均在底片号末端备注标记。如遇底片转走、撤销或“有袋无底”等特殊情况,对应编码无数字化成果图像,则制作替代图加以标识。

  数字化档案文件夹目录和底片档案册整册对应。根据底片册保存方式,数字化成果文件夹采用分层存储,对应每本实体档案册的200个底片号。参考示例为:全宗文件夹-底片分类文件夹-高清数字化成果名称文件夹-底片本册,如“底片数字化-黑白-TIFF文件-黑白010001-010200”。

  磁光电混合存储。考虑到项目数据量大、存储情况复杂,采用磁盘阵列(服务器)存储,数字化成果选用磁光电混合存储,即采用一套集软硬件于一体的综合性备份管理系统。

  蓝光硬盘备份存储管理软件可对关联设备进行单机控制和集群管理,支持磁光逻辑分卷及海量数据自动分盘,主要功能包括数据管理、设备管理、任务管理、安全管理等。硬件包括智能光盘库、离线硬盘库和离线光盘管理单元等,支持单元模块独立运行和级联扩展。智能光盘库可多线程同时刻录。离线光盘管理单元可通过RFID定位。光盘内数据可实现有效检索。

  硬盘选用监控级硬盘和企业级硬盘,容量为6T和10T,容量大,存储速度快。光盘选用100G和128G档案级蓝光光盘,节能环保,使用寿命长。硬盘和光盘均离柜单盘可用。

  数字化成果分为7套存放,分别是3套原始数据、3套优化后的数据和1套供日常使用的图片。前两者存储于档案级蓝光光盘和硬盘中,后者存储于硬盘中。且前两者各有1套数据采用离线蓝光光盘异地存储。每套数据均可独立检测利用。供日常使用的图片和数据管理系统对接,进行照片文字说明全要素挂接,实现有效在线调阅。

  数据备份完成时,可在数据模块和设备模块查看写入状态,复核台账。同时,可在系统内进行技术校验,或通过数据回迁对原数据和写入系统内数据进行技术比对,确保完整写入、安全可用。

  蓝光光盘应用中积累了一些有益经验。如,硬盘写入速度比光盘速度快,因此,目录建立时可根据实际情况拆分写入。又如,为避免自动跳盘存储可能带来的相近文件夹存储于多张光盘,给日后利用带来不便等情况,需事先确认分盘存储策略。再如,盘笼信息导出可制作目录,直观展示有效光盘数量和存储内容,助力检索。还应综合考虑工期,支持任务并行多台作业,在耗材采购时应考虑废盘率和光驱损耗,避免使用过程中储备不足等。

  经验启示

  强化思想认识。提高政治站位,加强顶层设计,充分认识照片档案数字化工作的重要意义、崇高使命和历史责任。把照片档案数字化项目作为一项重要政治任务,将数据安全归档备份作为一个重要工作环节,全流程保障数字化成果政治安全和档案安全。

  注重流程规划。成果数据备份作为档案数字化的末端环节,存在工期滞后风险,影响项目验收进度。要做好流程规划,及时发现反馈数字化成果质量问题,第一时间安排返工。及时移交备份数据,既有助于保障数据有序排列,及时回迁检测写入状态,又可以及时腾退过程数据所占用的服务器空间,提升整体效率。

  严守安全底线。建立标准化、规范化、制度化的安全保密责任体系,保障迁移备份软硬件设备、场地安全,明确人员责任,加强技术运维,重点排查数据迁移存储端口安全风险,筑牢迁移备份防护墙。

  磁光电混合存储实践是照片档案资源长期保存的新探索。下一步,将以此项目为基础,推动实体底片静态保管,做好异质异地冷存储备份,搭建智能化照片档案数据中心,深入挖掘馆藏资源和高清数字化成果价值,既保障长期安全保存,又助推活化利用。

  (作者系中国照片档案馆馆员)

  原载于《中国档案报》2024年8月5日 总第4171期  第四版