卷积神经网络在图像档案管理中的应用研究

发布时间:2024-04-30 20:28:27被阅览数:283 次信息来源:《中国档案》

  文/杨文刚

  随着数字时代的到来,图像档案管理已成为各个应用领域中不可或缺的一部分,而随着数字图像数量与复杂性的不断增加,如何有效地组织、管理和利用这些图像档案变得至关重要。卷积神经网络作为深度学习领域的佼佼者,在图像处理方面取得了巨大的进展,并为图像档案管理带来了前所未有的机遇和挑战。

  卷积神经网络概述

  卷积神经网络(Convolutional Neural Network,CNN)是一种擅长于分析处理二维数字图像的深度学习模型,在图像识别、目标检测、人脸识别等领域有着广泛的应用。卷积神经网络是由卷积层、池化层、全连接层组合而成,在图像分类预测中,卷积神经网络的运转主要分为数据训练阶段和数据预测阶段。

  在数据训练阶段,输入图像到卷积神经网络,卷积神经网络的卷积层通过一个类似于过滤器的“小滑块”对输入图像进行逐行逐列地扫描,识别并捕获图像中的边缘、纹理等局部特征,最后生成特征图,这个“小滑块”便是卷积神经网络的卷积核。卷积层的主要功能是提取图像特征,随后池化层对所提取的特征图进行池化,池化是对特征图进行等比例缩小的操作,其效果如同将一个高清图进行缩略图设置,实质上是压缩了图片的大小从而降低运算维度。池化后的图像进入全连接层,全连接层通过激活函数将图像提取的特征映射到图像的分类,并输出结果。输入图像经过卷积神经网络的卷积层、池化层、全连接层输出得到分类结果,这个过程被称为前馈网络。输入图像经过前馈网络计算所得的分类结果往往与原始图像的真实分类结果是有所差异的,这时卷积神经网络会根据某种算法更新卷积核和全连接层的相关参数,这个过程被称为反向传播。通过不断循环和迭代前馈网络和反向传播的过程,卷积神经网络的各项参数不断被更新并得到优化,输入图像的预测误差也随之降低,最终得到训练后的卷积神经网络。

  在数据预测阶段,利用已训练好的卷积神经网络,对未知图像进行前馈网络的运算,并依据其计算结果,映射并判断未知图像的分类。

  应用场景

  1.图像档案智能分类

  卷积神经网络可以用于图像档案的自动分类。一方面,卷积神经网络通过提取图像的特征图,检测和识别到图像中人物或场所,从而将图像档案归类到不同的人物类、活动类或场景类;另一方面,对于大量文档图像,例如由扫描或拍摄形成的收发文件、财务票据、工程图纸、项目合同、荣誉证书等,这些图像或呈现固定的版式,或包含规范的图表,图像中的边缘及纹理特征比较显著,易于被卷积神经网络识别并进行标签化,从而实现自动分类的功能。

  受大数据环境影响,数字图像档案数量激增已成为智慧档案馆建设的必然趋势,单一依靠传统人工识别来完成图像档案分类的工作方式,已很难适应智慧档案资源建设和管理的业务诉求,卷积神经网络通过对已分类的图像档案进行数据训练,实现对大量未知分类的图像档案进行数据预测和分类标签自动化,不仅提升了档案分类的管理效率,而且随着图像档案的不断积累,更多的数据被用来训练卷积神经网络,卷积神经网络得到不断完善和优化,可以进一步促进图像档案的精准分类,有助于确保图像档案分类的业务生态系统处于良性循环之中。

  2.利用权限的身份识别

  档案利用权限的身份识别主要用于判断当前用户是否为合法用户以及是否对某些特定档案具有查阅权限,一般应用系统是通过校验用户输入的账号和密钥进行判别,一旦用户密钥丢失或泄露,将会对档案信息安全造成极大威胁。卷积神经网络在人脸识别领域具有广泛的应用和显著的优势,在人脸检测和人脸识别方面具有自动特征提取、适应性强、准确度高等特性。卷积神经网络可以通过用户现场采集的头像,同时识别其带有头像的有效证件,以及提取在档案系统中已确权备案的头像等方式,进行对比分析并反馈识别结果。对于存在异常的判别结果,档案管理员则需提高警惕,对档案用户身份权限作进一步研判。可以说,卷积神经网络通过人脸识别功能,更好地协助档案管理系统及档案管理员对档案用户身份权限进行甄别,这样不仅提高了管理效率,而且确保了档案信息的安全访问。

  3.档案多模态检索

  多模态检索是一种基于多种数据模态形式的信息检索方法,其目标是从不同模态的数据中检索信息内容以满足用户需求,多模态数据包括文本、图像、音视频等多格式数据,多模态检索将不同模态的信息融合在一起,提供更全面、更精确的检索结果。传统的检索方式是通过输入关键词,系统对关键词进行索引,并将与关键词匹配的结果返回给用户。多模态检索不止可以输入关键词,还允许用户输入图片,系统可以根据用户提交的图片来匹配系统中海量图片,并将相关联的图片集返回给用户。

  卷积神经网络可以通过对图库中图像集的训练和标签化,对用户图像提取特征,通过相似性度量筛选图库中相似图像,并根据图像相似度进行排序,将匹配结果返回给用户,从而实现了以图搜图的检索方式。这种多模态检索技术应用于档案信息检索,既丰富了档案信息的检索方式,又促进了多种媒体格式的档案信息融合。目前,已有部分档案管理系统引入了多模态档案检索功能,为智慧档案馆建设开拓了新的视野。

  4.图像档案信息挖掘和整合

  通过卷积神经网络对图像档案数据训练,还可以揭示图像档案隐含的语义信息。首先,通过人工著录的方式对部分图像档案设置标签(所谓标签就是图像档案的关联词,如图像中的人物姓名、活动场景、图像内容等信息),随后,将设置好标签的图像数据填充到卷积神经网络中,使卷积神经网络不断地进行监督学习、训练并得到适配的卷积神经网络模型,再通过这个卷积神经网络对未设置标签的图像进行特征提取,并依据已学习好的向量模型进行对比,自动对特征向量相近的图像生成对应标签。经过多种不同卷积神经网络训练,同一个图像都会产生多个不同的标签。一方面,这些标签提取了图像的内涵信息,使图像档案易于理解,另一方面,相对零散的图像也因这些标签实现了彼此关联,进而优化了图像档案的信息整合。

  通过卷积神经网络的训练,实现图像档案的标签化,对于档案编研工作也发挥着积极作用,如在编研工作中需要对某些人物、活动、事件展开研究,这时只需要匹配标签对应的人物、场景、活动、主题等信息,即可将相互关联的图像档案全部筛选出来,服务于编研工作的开展。

  优势分析

  1.智能化图像分类和自动化标签设置

  卷积神经网络可以通过模型训练自动识别图像特征和图像分类,这项技术使图像档案管理变得更加高效和准确,减轻人工分类和标签化的工作负担,同时确保档案数据的标准化和一致性。

  2.图像内容的智能理解

  卷积神经网络通过不断学习和优化,能够逐步理解图像内容的内在含义。这使得照片档案管理系统可以自动提取图像中的信息,增加图像档案的可理解性和可用性。

  3.处理大规模数据

  卷积神经网络通过数据压缩提取图像主要表征,实现对大规模数据的降维处理,同时基于并行处理和迁移学习的机制,高效精准地处理大规模图像数据和文本数据,提高档案管理的处理速度和效率。

  4.评估和处理图像质量

  卷积神经网络可以用于评估图像的质量,并用于图像处理以改善图像的可视化效果。通过自动识别模糊、噪声以及其他图像质量问题,可以清除低品质的图像或应用修复算法来提升图像质量,进而提升和改善图像档案的质量。

  5.高效的图像检索

  通过将图像转换为特征向量并建立索引,卷积神经网络可以支持高效的图像检索和搜索功能。用户输入图像或关键词可以检索相似或相关的图像,从而快速定位所需的图像档案。

  存在问题与解决方案

  1.图像档案数据多样性特点

  图像档案通常包含大量的图像数据,这些图像可能来自于不同的出处,具有不同的分辨率、光照条件和拍摄角度。这种数据的多样性可能会导致卷积神经网络的训练过程十分复杂,进而影响模型输出结果的效率和准确性。

  通过人工参与方式对图像档案进行数据预处理,可以有效地改善模型训练结果,例如规范图像的宽度、高度、分辨率、格式等标准,筛选和清洗不满足条件的图像,修正不符合要求的图像,对图像进行统一的标准化,并将处理后的图像输入卷积神经网络中开始训练。

  2.调用开源程序

  虽然卷积神经网络在很多应用领域已被广泛应用,但其算法仍具有一定的学科门槛,非专业人员面对卷积神经网络往往感到无从入手。笔者建议档案工作者可以尝试使用开源框架TensorFlow,它集成了卷积神经网络、人脸识别、目标定位、图像对比等程序接口,通过调用TensorFlow的应用程序接口便可实现卷积神经网络的训练和预测。档案工作者只需要简单了解卷积神经网络的工作原理,并设置好相关模型参数即可,这里的模型参数是指卷积核的宽高和维度、池化层的宽高尺寸、全连接层输出的维度和标签。

  档案工作者一方面要学会如何调用开源程序,另一方面还要学会如何调试模型参数,这是由于任何一个神经网络在模型训练时都会出现过拟合和欠拟合的情况,通过不断调整参数可以有效提高神经网络的准确率,但是调整参数却是一项重复性的、枯燥的工作,这就需要档案工作者耐心去不断尝试、不断探索和积累经验。同时随着图像档案训练数据的不断增加和积累,卷积神经网络也会逐渐优化,最终输出结果的准确率自然会逐步提升。

  3.信息安全和数据保护

  使用卷积神经网络处理图像档案可能会涉及隐私和安全风险,当图像中包含个人身份信息或敏感内容时,不当的数据处理和存储可能导致信息泄露或未经授权的访问。此外,还可能存在一些涉及知识产权、数据权益、版权归属等方面的问题。这就要求在运用卷积神经网络时考虑好应对的解决方案,采取适当的措施降低潜在风险,确保其在图像档案管理中有效且安全的应用。

  作者单位:天津师范大学档案馆

  责任编辑:王辉