发布时间:2024-02-22 13:24:33被阅览数:539 次信息来源:《中国档案》
文/杨巍
数智技术深度学习智能算法能够快速大批量处理照片,不但能满足数字化档案的长期保存要求,同时也降低了照片修复的成本,为便捷高效利用照片档案提供了可能性。本文围绕图像超分辨率智能修复算法原理和技术发展脉络,探索人工智能技术在照片档案修复工作中的应用,帮助档案机构、档案从业人员能快速地利用前沿的人工智能超分辨率技术进行档案图像修复工作,为照片档案的修复和利用提供新的技术路线。
智能超分辨率图像重构技术综述
超分辨率(Super Resolution,SR)图像重构技术是指从给定的低分辨率(LowResolution,LR)图像修复重建出高分辨率(HighResolution,HR)图像的技术;超分辨率的方法包括传统方法和基于人工智能AI的深度学习方法。传统SR方法是基于图片像素等先验信息进行图片重构,不能获取重构过程中所需的额外信息;基于人工智能深度学习的SR方法,可以建模重构过程中的额外信息,在性能上远远领先于传统方法,有着更好的图像重构/修复性能表现。
1.基于传统方法的SR技术
传统SR技术的典型方法是基于插值理论的图像重构技术,基于插值的SR方法主要包括最近邻插值、双线性插值和双三次插值等。插值方法的本质是利用原始图像中已知的像素灰度值估计图像分辨率放大后新增位置像素灰度值。图1和图2展示了一个二维图像像素坐标系下,图像放大3倍后的像素坐标变换。红点代表原始图像像素,绿点代表新图像中因放大而新增的像素坐标点。插值技术目的就是通过某些规范,填补这些多出来的坐标点的像素值。
图1 原始图像像素坐标
图2 放大后图像的像素坐标
以最近邻插值和双线性插值的填补方法为例,介绍插值方法的原理。图2中的红点是原图像上的坐标点,灰度值分别对应为f(x0,y0)、f(x3,y0)、f(x0,y3)、f(x3,y3)。对于灰度值未知的插值点P点的灰度值为f(x1,y1)。
最近邻插值方法是将变换后图像中的原始像素点灰度值赋值给新增的最邻近像素点的方法。根据最近邻插值方法的原理,P点与原始像素点(x0,y0)位置最接近,因此基于最近邻插值方法,P点的灰度值f(x1,y1)=f(x0,y0)。
双线性插值的主要原理是在图像的两个方向分别进行一次线性插值,即新增点的灰度值是基于周围4个原始邻点的灰度值计算而得。为了计算P点的灰度值,先在x轴方向上做一维线性插值,得到P1和P2的灰度值f(x1,y0)和f(x1,y3):
然后再在y轴上做一维线性插值,由P1和P2的灰度值计算得到P的灰度值:
合并上式,得到最终的基于双线性插值P点的灰度值结果为:
由上文可以发现传统SR方法具有算法简单、处理速度快的优点,但是此类方法在图像边缘、纹理等像素变化差异大的地方的处理效果差,这方面在图像清晰度和成像质量效率上越来越不适应当前要求。
2.基于深度学习的SR技术
随着人工智能技术的兴起,越来越多的学者开始探索将人工智能应用到SR领域,建立了基于人工智能深度学习的SR方法,极大的提升图像超分辨率重构的图像质量。基于深度学习的SR算法的思想是对训练数据中的低分辨率和对应的高分辨率图像进行深度网络学习,得到两者的变换模式,并将这种变换模式应用到其他图像的SR修复重建过程。
(1)基于CNN卷积神经网络的SR技术
SRCNN模型是最早提出基于CNN卷积神经网络进行SR图像重建的模型方法。该算法的思路是将低分辨率的像素先通过上采样插值方法扩展到高分辨率的像素大小,然后通过CNN卷积核训练模型,优化其与对应的高分辨率图片的损失函数,最终得到符合要求的网络模型。
SRCNN模型结构包括3层卷积网络,给定低分辨率图像(Low-resolutionimage),SRCNN的第一层卷积网络进行图像块的特征提取(Patch extraction and representation);第二层卷积网络将第一层的特征非线性地转换到高分辨率HR图像的特征表示(Non-linear mapping);最后一层卷积网络进行图像重建(Reconstruction)产生最终的高分辨率图像(High-resolutionimage)。
(2)基于ResNet残差网络的SR技术
SRCNN只有3层卷积网络,网络层数过浅,导致最终生成的高分辨率图片的新增像素点反映出的输入图像区域信息比较少,这样就会限制最终输出图片的清晰度。为解决该问题必将加深网络深度,但是太深的网络结构会使得模型训练的收敛速率变慢甚至无法收敛。
VDSR模型首次提出引入残差深度网络解决SR领域的上述问题。笔者认为LR图像和HR图像有很多共同的低级别结构信息,所以模型仅需要学习两者之间有差异的高级别结构信息,这种高级别结构信息的差异值学习就是残差学习。高级别结构信息含量相对低级别结构信息含量要少很多,因此,仅进行残差学习从学习的难易程度和学习的训练时间成本上都得到极大的提升,有效地解决了网络结构太深模型训练无法收敛的问题。VDSR模型最后将学到的高级别结构信息(残差信息)和原始LR图像整合即可获得高质量的HR图像。
VDSR模型结构包括2个核心模块,第一个模块是由多个卷积Conv+relu层组成的残差(Residual)学习模块;第二个模块是将残差与原始的LR低分辨率图像整合,即实现高级别结构残差信息和低级别结构信息的整合,最终获得高分辨率HR图像。
(3)基于Attention注意力机制网络的SR技术
Attention迁移了人类注意力的表述,如在读写过程中,人们会把注意集中在自己最关注的信息上,这样不同的信息对不同的人而言就有了不同权重。在模型训练过程中,每个(层)特征的权重也都应是有差异的,Attention机制就是通过学习到这些不同的权重,提升模型的表达能力。
SRCNN、VDSR等类似的SR网络模型将每个卷积层独立串联处理,却忽略了前后不同网络层之间的相关性。为了克服这个问题,Attention机制逐渐被学者引入到SR领域,用以解决不同层次之间的特征融合。HAN模型引入注意力机制,考虑多层次之间的相关性,并通过Attention模块来学习得到不同层次特征的权重,进而显著提升重构后高分辨率图片的质量。
HAN模型结构如图3,包括4个核心模块,第一个模块是通过一层卷积层提取LR图像的浅层图像特征;第二个模块是上方立方体表示的LAM层次注意力模块,通过Attention机制学习不同层次之间的关联性,并最终加权得到层次之间的特征表达;第三个模块是下方立方体表示的CSAM模块,通过Attention机制学习不同信道空间位置之间关联,并得到不同位置的空间关联特征;第四个模块是最终的图像重建模块,基于LAM特征、CSMA特征和浅层图像特征,通过卷积最终得到高分辨率图像。
图3 HAN网络结构
(4)基于复合AI技术的SR技术
CNN卷积神经网络、ResNet残差网络、Attention注意力机制网络等各种网络都有各自的优点,众多学者也开始更多的探索能够同时利用到多种网络的复合网络模型。
但是复合AI技术带来超分效果提升的同时,也极大地增加了模型的复杂度,模型的复杂性会影响模型训练和最终生成图像的效率,进而会限制模型在实际中的应用。2021年10月,LIang J等在国际计算机视觉大会上提出SWinIR超分辨率技术;SwinIR充分利用了卷积神经网络、残差网络和Transformer Attention的优点,并有效的控制模型参数,降低了模型复杂度,经过LIANG J验证,该技术的效果比其他模型效果有明显提升的同时,模型参数总量减少67%。SwinIR模型的提出让AI超分技术在实践中的应用有了更大的空间。
SwinIR模型结构如图4,包括3个核心模块:SFE(ShallowFeatureExtraction)浅层图片特征提取模块、DF(DeepFeatureExtraction)深度特征提取模块和HQIR(HQImageReconstrcution)高质量图像重建模块。首先,DFE利用CNN卷积层提取浅层图片特征,然后将其直接输入到HQIR模块,以保留低级别结构信息。其次,DFE模块由多个RSTB和一个Conv卷积网络组成,每个RSTB模块再经过多层STL进行特征局部注意力表达和跨windows窗口的交互,再添加一个卷积层Conv以增强网络特征,同时使用残差连接作为特征的聚合模式,这种模式有助于图像不同位置窗口和前后不同网络层级的特征聚合,极大地提升了图片特征的建模能力。最后,在高质量图像重建模块HQIR中结合浅层图片特征和深度特征,进行高分辨率图像的重建。
图4 SwinIR网络结构
SwinIR模型利用更少的网络参数,取得了更好的SR建模效果,同时作者将模型开源到GitHub(https://github.com/JingyunLiang/SwinIR)。基于该复合网络模型图像重构质量高、运行效率快、模型开源后的易用性等优点,SwinIR在工业界得到快速的推广和应用。笔者也将基于SwinIR的上述优点,探索将该模型应用到照片档案修复工作中,帮助档案机构、档案从业人员能快速地利用前沿的人工智能SR深度模型技术进行照片档案的修复。
人工智能超分辨率技术在档案修复中的应用
SwinIR模型被作者开源后,国内机器学习开放平台paddle平台对SwinIR模型进行封装,笔者以MacOs系统为例,进行SwinIR模型的部署。
1.SwinIR在照片档案修复中的实证测试
将SwinIR部署好之后,笔者选取照片档案进行超分辨率修复,验证图片得到了很好的清晰度修复。
图5是一张儿童照片的修复情况,图5的左边是原始图片,右边是修复后的图片,可以看到利用SwinIR重构修复后,图片变得更加清晰。然后将图片等比例放大,观察儿童的面部信息,如图6所示,可以看到原始图片已经很模糊,但是修复后的图片,儿童面部非常清晰,可以观察到儿童的“双眼皮”信息,修复后的图片带来更多的信息增益。
图5 人物照片修复
图6 人物照片放大对比
2.人工智能超分辨率技术在图档领域的应用场景和价值
当前,图书、档案、文博领域图像的修复技术以传统技术和计算机辅助技术融合为主,图像修复既要保证图片的真实性,又要满足工作中的信息提取、人们审美等方面的需要,当前传统的技术手段越来越不符合这方面的需要。随着人工智能技术的日趋成熟,图书、档案、文博领域的珍本、古字画、老照片等图像的修复均可依托“人工智能+”的方式进行图像修和信息提取。人工智能超分辨率技术在图档领域以及社会化方面都具有很大的应用价值。
(1)图书馆、档案馆、文博馆等信息管理体系内的应用
一是修复珍本、老照片、古字画模糊的信息。图书馆中影印的珍本书籍,档案馆中的大量老照片、文博馆中保存的古字画,受当时拍摄硬件、成像技术的限制和保存过程中的损害,导致影印的珍本、拍摄老照片、数字化的古字画分辨率很低,甚至一些重要的信息都不能显示,导致利用中存在了“有图无真相”的尴尬现象。利用人工智能超分辨率技术,能够使老照片、古字画变得清晰、鲜活,充分发挥珍本、老照片、古字画的文化价值。
二是修复照片转存过程中失真的图像。在档案数字化实际工作中,数字化是分批次分阶段进行的,因此不同时期的数字化成果会存储在不同的软硬件设备中,由于档案数字化软硬件设备和信息技术的更新换代较快,档案馆需要定期转存数字化成果,在转存过程中,就会存在因格式或者其他设备读取问题导致部分数字化照片信息模糊现象。同样在电子档案传输过程中,网络故障也会导致收到的图像出现马赛克的情况。人工智能超分辨率技术能快速解决这种问题,帮助挽救珍贵图片档案。
三是为档案管理系统中智能搜索奠定了基础。图像检索(以图识图)目前是档案管理领域主要推广和应用的技术。“以图识图”的关键是提取指定图片中人物、场景等关键特征值,将这特征值与待检索图像库中的所有图像的特征值库对比,进而自动匹配出特征相似的图片。所以图像清晰可辨是“以图识图”的必要前提,利用人工智能超分辨率技术把图库中的照片全部清晰化,能够快速实现相同特征照片的智能准确分类,确保“以图识图”检索结果的准确率。所以,人工智能超分辨率技术为档案管理系统中“以图识图”功能的实现创造了条件,奠定了基础。
(2)人工智能超分辨率技术的社会化应用
人工智能超分辨率技术的社会化应用主要从方便用户利用、提高照片档案凭证性、助力档案文化传播等角度出发。根据用户的特定需求,该技术能够将照片档案进行局部清晰化处理,在保证照片档案发挥凭证价值的基础上又能确保照片内其他信息的保护。而在文化传播中,AI超分辨率技术更加高效地解决了档案、文博展览中低像素照片因放大而出现模糊的问题,助推了照片档案价值的实现,也赋能了档案文化的社会化传播。
结语
从实验结果看,人工智能超分辨率技术能够遵循图像档案修复的“保证原始性、数据性和艺术性”的原则,在不损害原始图像信息的基础上,更加清晰地还原图像整体信息。这解决了图书档案文博领域老照片像素低、数字化扫描图片分辨率低而导致不能使用的问题。利用人工智能超分辨率技术同时也能够提高照片档案修复工作的效率,减少对专业技术人员的依赖性,降低图像档案修复的成本。
参考文献:
[1]李姗姗,王敏敏,李鑫.数智赋能音视频档案修复:实然之需、应然之举、必然之策[J].档案学通讯,2022(5).
[2]钟蕙.数字图像修复过程中超分辨率重建算法的应用与研究[D].贵州财经大学,2022.
[3]黄健,赵元元,郭苹,王静.深度学习的单幅图像超分辨率重建方法综述[J].计算机工程与应用,2021(18).
[4]符祥,郭宝龙.图像插值技术综述[J].计算机工程与设计,2009(1).
[5]江媛媛.“以图搜图”技术在照片档案管理中的应用研究[J].档案与建设,2018(6).
[6]赵学敏,田生湖,张潇璐.基于深度学习的以图搜图技术在照片档案管理中的应用研究[J].档案学研究,2020(4).
作者单位:浙江财经大学
责任编辑:王辉