发布时间:2024-01-21 14:23:41被阅览数:435 次信息来源:《中国档案》
文/薛四新 薛建团 赵紫毫
照片档案以直观、可视的画面真实而生动地记录了人们从事各项社会活动的历史瞬间和现场景象,其形成、归档、保存和利用等管理过程具有区别于文本类档案的独特方法。在信息技术快速发展和档案数字化转型的新时期,馆藏纸质照片档案的数字化加工、原生数码照片的归档处理,以及档案管理机构接收入库的电子照片档案的长期保存和有效利用等业务工作的开展,离不开人工智能、海量存储等新技术的应用。笔者以人物照片档案的管理为例,分析人工智能技术特别是机器学习、人脸识别、索引库构建、智能标引等技术方法在照片档案管理过程和系统实现中的原理与方法,为照片档案的有效管理提供参考解决方案。
人物照片档案数据库的框架构建
照片档案科学管理和有效利用通常需要基于电子档案管理信息系统,该系统的建设除了具备通用档案管理系统的收集整理、归档处理、入库登记、质量检测、鉴定处置、查询统计等通用功能外,还需要根据照片档案的元数据、数字对象、图片智能检索等特殊要求引入模型库构建、智能计算、人脸识别、机器学习等人工智能技术,在照片档案智能化管理系统建设过程中加以应用,以支持照片档案的聚类建模、人物定位检索等智能化功能的实现,其中最核心的技术是照片档案数据库构建和机器学习与训练技术的应用。
电子档案数据库科学、有效存储了档案元数据信息、档案数字资源对象、档案管理过程记录和系统运行维护数据,旨在将档案及其管理相关数据进行科学组织和有序管理,以支持档案管理信息系统的各应用程序执行存取访问、导入导出和利用档案数字信息等业务。档案数据库的构建是档案管理信息系统实现的关键,没有档案数据库,档案管理信息系统的功能就无法实现。基于人脸识别和人物照片管理业务建设照片档案智能化管理系统,需要构建如图1所示的档案数据库,主要包括档案管理数据库、人脸特征库、照片档案索引库以及系统基础数据库、人员信息库。
图1 照片档案数据库的框架结构
1.档案管理数据库
是照片档案系统建设的主数据库,主要包括档案目录数据库、管理过程数据库和电子照片数据库。档案目录数据库是描述照片档案信息的源数据库,通常需要按照档案行业发布的照片档案管理规范和《照片类电子档案元数据方案》(DA/T54—2014)元数据集等相关标准和规范确定照片档案管理的数据结构,主要包括档号、主题(事由、事项、背景)、时间(形成时间、归档时间)、地点、人物、责任者(摄影者、著录者、数字化人员)、来源(归档单位)、保管期限、生成方式、技术参数(分辨率、色彩、大小、像素)等元数据项;管理过程数据库用来记录档案机构及其人员在开展档案管理业务过程中形成的记录,主要包括鉴定、销毁、划控、数字化、格式转换、系统迁移、备份等各类业务过程中涉及的人员、事项和处理情况等信息,每一个过程信息都需要与档号建立关联;电子照片数据库主要是用来存储电子照片档案文件集的数据库,数据库的组织、分类、存储格式,以及照片文件命名(通常以档号进行命名)等需要在数据库设计时进行确定。
2.人脸特征库
是照片档案管理系统具有智能检索功能的关键数据库,利用人脸识别技术、数据建模技术,通过对照片图像进行分析,提取人脸特征(一般识别轮廓、眼、耳、鼻、嘴等关键部位),通常以文件形式保存一个数据矩阵,其数据的识别需要与人脸数据模型进行关联才能使用。人脸特征数据能以数字对象的形式存储在关系型数据库中,也能以一个Excel文件的形式存储一个数字矩阵,文件通常以人物编号命名,建立人脸特征库与照片档案中人物的关联性。
3.照片档案索引库
是照片档案快速智能化检索的关键数据库,人脸识别处理过程中,需要对每张照片上的人物进行分割、定位和编号,描述和标引每一张照片上人物的信息,并通过照片档案、人物编号建立与人脸特征库的关系。照片档案索引库可以采用关系型数据库方式存储数据。
4.系统基础数据库
是系统建设过程中需要使用的基础数据组成的数据库,主要包括系统策略、参数、机构、数据字典、用户及其授权信息等。档案系统建设过程中可以根据各单位的实际情况进行定制和结构配置,譬如档号生成规则、电子照片存储的路径、归档单位编码与名称、系统使用的人员及其存取访问档案的权限等。系统基础数据库通常是以关系型数据库方式存储数据。
5.人员信息库
是照片档案管理系统实现智能化检索和处理的基础数据库,主要用来描述照片中人物的基本信息,包括人物编号、姓名、身份证、性别、单位、职称等。该数据库可以来源于其他系统的共享数据,也可以在人脸识别过程中不断根据需要新增人员基本信息。
人脸识别关键数据库的构建原理
随着大数据挖掘分析、人机智能双向交互和计算机计算能力的增强,以人脸图像为基准的人脸识别技术得到快速发展。人脸识别是基于人的脸部生物特征进行图像处理、图像识别和图像检索的一种人工智能技术,是通过采取、提取、分析和对比人脸图像特征(光学成像照片)来描述人脸特征、区分人物个体和鉴别人物身份的一种生物特征识别技术。
当前,在档案信息化快速发展和深化应用的新时期,人脸识别技术已经广泛应用于现代档案管理的各项业务活动中。这一方面得益于人脸识别、模型构建、图像处理和机器学习等人工智能技术的稳定性和成熟度的持续提高;另一方面也源于档案现代化管理实际业务需求的不断扩展。基于人脸识别技术开发智能化照片档案管理系统或者增强照片档案管理系统功能已经成为现代档案工作者提高照片档案的检索效率和服务能力的重要抓手,而其中最为关键的是人脸特征库和照片索引库的建设。图2给出了档案馆构建人脸特征库和照片索引库这类数据库的基本原理和人脸识别服务系统的工作原理。
1.人脸照片个体处理方法
人脸照片个体处理是专门构建人脸特征库的一种集中有效的一次性方法。这种方法主要用于事先约定,面向专门的人物群体进行人脸特征库的采集,目的在于为后续进行人脸识别系统的构建提供基础数据库,如门禁系统、公安部门的身份采集系统等都需要依据合法合规的流程,组织进行人脸信息的采集。图2的左下部分虚线框中描述人脸个体照片的采集与人脸数据库的构建流程,主要包括人脸个体照片获取、人脸检测、特征库信息生成3个关键处理节点。
“人脸个体照片获取”是通过专门的照相机、录像机等高分辨率的光学成像设备,由专业的摄影师获取正面的、高清晰度的、人脸特征容易提取的高质量人物头部照片,以提高人脸图像特征信息提取和人脸数据库描述信息的精准度。
“人脸检测”是对获取的照片进行图像处理,获取人脸轮廓形象和人脸部典型部分如鼻子、眼睛、嘴巴、耳朵等的特征信息,并与已经形成的人脸数据中的人物特征数据进行对比分析,以确定是否需要在人脸数据库中增加新人,目的在于确保人脸数据库中人脸特征信息的唯一性,避免重复存储。
“特征库信息生成”是按照预先设定的人脸特征信息描述的数据结构和模型,提取人脸特征并生成计算机可保存、可使用的具有统一数据结构和存储模板的人脸特征描述数据或文件,并通过人工或者计算机自动匹配的方式,将人脸特征描述信息与人物基本信息(姓名、身份证等)建立关联,写入人脸特征数据库,以区别人物个体。
个体照片处理过程中,人员基本信息数据库是人脸图像描述信息与人员身份信息关联的基础数据库,通常可以提前采集或者从一些共享数据库中获取。
2.照片档案批量处理方法
照片档案批量处理是档案机构需要使用的典型方法。一方面用于对以往档案馆已经接收的馆藏存量档案(纸质照片需要提前进行数字化扫描并达到数字化质量的一般要求)的离线集中处理,一方面用于数码照片归档接收环节的在线处理。其主要工作步骤包括照片图像分析、照片档案人物聚合定位、人脸检测、人脸特征库信息生成、照片档案人物标引等一些关键的节点。
“照片图像分析”:主要对具有多人的照片亮度、斜度、对比度等进行预处理,目的在于形成能够提取人脸特征的有效的照片档案,对于无法进行人物聚合和人脸特征识别的不合格的照片进行筛选和剔除。
“照片档案人物聚合定位”:对每张照片中的人物及其数量进行位置确定和处理,找到人脸图像区域并进行定位描述。
“人脸检测/新人判定”:对每张照片中每个人的人脸进行图像处理,按照预先约定的数据模型提取人脸特征信息,并通过与人脸数据库中已有的人物特征信息进行对比分析,判定是否需要在人脸数据库中增加新的人物特征数据。
“人脸特征库信息生成”:对于需要增加新的人物特征数据的人物进行身份信息匹配、建立对应关系,生成符合人脸数据库中存储结构的数据或文件,对于无法建立对应关系的人物身份,则需要在后续的迭代和处理过程中,不断地进行完善,必要时由人工进行人物身份的识别和关联处理。
“照片档案人物标引”:对每张照片中的人物数量、人物位置及其人脸区域进行信息描述,并与人脸特征库中的人物建立唯一的对应关系,按照照片档案索引库的数据结构生成和保存每张照片上每个人物的索引信息。
照片批量处理过程中,往往需要引入机器学习、专家知识库等技术以支撑人物照片档案中人物聚类处理和多次迭代过程的实现。
照片档案智能化管理系统的实现方式
人脸识别照片档案数据库的构建是智能化系统建设的关键,是支撑档案管理系统功能开发与系统实现的基础和保障。而如何在档案管理系统中引入人脸识别技术以实现自动化和智能化,则需要档案机构依据本单位档案信息化系统建设的具体情况来确定。
对于新建档案管理系统的机构而言,首先需要基于顶层设计方法,按照图1数据库结构和图2中的建设方法,设计照片档案数据库、梳理照片档案管理业务流程、明确档案管理系统的功能、确定人工智能技术的应用场景;然后根据数据库存储要求、档案存储空间要求,搭建系统开发的软硬件基础设施、存储器、服务器、结构化和非结构化数据库管理系统、应用系统开发平台,并依据数据库框架结构和系统功能要求,选择人脸识别、数据建模和机器训练等关键技术,开发系统功能,构建自动化和智能化的档案管理系统;最后,再使用系统管理、用户授权、流程配置、参数与策略设置等系统配置功能,对档案管理模式、业务流程、系统使用人员及其操作权限进行定制。这种全新的一体化系统建设方式,需要系统建设方熟悉和掌握人脸识别、模型构建、机器训练和计算处理等人工智能技术,并能够在系统开发过程中熟练运用,要求系统建设方在人工智能技术方面的研究、开发和应用方面具有较为丰富的经验。不过,相对于一般的档案管理信息系统开发而言,人工智能技术研发的难度大、投入多,并不是所有的系统建设公司都能够有能力投入较多的人力、财力和设备进行专业化的研究和创新。就当前我国档案管理系统开发的实际情况看,专业能力较强的档案管理系统开发商在人工智能技术方面的投入相对较弱,而在人工智能领域深耕多年的新技术研发公司在档案管理方面又缺乏专业化的业务流程分析和功能需求的研究,这就不可避免地造成了档案管理系统智能化功能的稀缺,由此在档案管理智能化系统的建设过程中,通常需要由专业的档案管理系统建设公司,将专门研究和开发人工智能技术相关的工具、服务组件或控件集成到档案系统中。
随着人脸识别准确率、成熟度的提升,基于人脸识别的智能化工具、服务组件、服务平台(以下统称为“人脸识别服务系统”,如图2所示)逐渐获得行业的认可。特别是随着档案机构电子档案治理能力的提升,档案管理智能化需求越来越迫切。目前,档案机构使用人脸识别服务系统主要有以下两种方式:
图2 基于人脸识别照片档案智能系统构建原理
1.后台服务方式
人脸识别服务系统通过提供在线接口服务,以后台服务的模式嵌入档案管理系统以解决智能化检索问题,这种方式有利于已有档案管理系统的档案机构,花费较少的费用,增强其现有档案系统的智能化功能。接口服务的功能主要包括检索服务、人脸数据库生成服务等功能。以档案系统中智能检索功能为例,照片档案管理系统如果需要从所有档案照片中查找包含某个特定人物的照片,就可以通过调用照片检索服务,输入人物的照片或者姓名,从而获得包含该人物的所有照片索引信息,由照片档案管理系统显示所有检索的照片并标出该人所在的位置。另外,照片档案管理系统也可以在数码照片归档管理和接收入库时,通过调用人脸数据库生成服务接口,输入准备接收入库的数码照片,人脸识别服务系统就可以按照预先设置的策略和参数,在系统后台自动进行人脸数据库、照片索引库的生成,根据需要生成数据库中的记录。同时,在数码照片归档入库时,系统自动对照片档案上的人物身份进行了真实性、有效性确证,保障了入库电子档案的凭证性。
2.专门工具使用方式
人脸识别服务系统可以作为专门的智能化工具,面向各类电子照片档案进行离线使用,支持人物照片的智能检索、人物照片档案数据库的精准管理和批量生成。这种方式比较适合于档案机构对已有的电子照片档案(包括纸质照片扫描生成的数字化副本)进行批量处理,形成人脸特征库和照片档案索引库,并通过人工的方式对数据库中的信息进行确认、核实、著录和标引,以辅助档案管理机构建立更为准确的人脸识别数据库。
由此,档案管理机构可以根据本单位照片档案系统建设的实际情况,选择适合本单位的系统建设方式,一次到位建设一个集成度高、智能化强的新档案管理系统;也可以选择购买第三方“人脸识别服务系统”工具对现有档案系统功能进行增强;还可以采用集中处理的方式,对现有馆藏电子档案进行批量的一次性处理,通过专门的离线工具实现照片档案的智能化检索。
参考文献:
[1]赵紫毫,薛四新.测评视角电子档案管理系统质量治理方法研究[J].中国档案,2022(3).
[2]王志斌,丁万春,李永新.基于快速图像识别的智能商场导引系统[J].现代计算机,2021(7).
[3]薛四新,闫亚元,赵利平.云计算环境下电子文件凭证性保障方法研究[M].中国文史出版社,2021.
[本文系2021年度国家档案局立项科技项目“来源可靠、程序规范、要素合规的电子文件归档系统实现研究”(项目编号:2021-Z-006)的阶段性研究成果]
作者单位:清华大学档案馆、清华大学校史馆、国家电子政务系统质量检验检测中心
责任编辑:王辉