发布时间:2024-07-22 20:43:38被阅览数:157 次信息来源:《中国档案》
文/周煜东
近年来,视频档案增速迅捷,已成为档案馆馆藏资源的重要组成部分,由于其内容丰富、信息量巨大、内容生动形象的特点,从而具有不可替代的作用。随着高质量发展理念的传播推广,档案行业对馆藏资源质量的要求也在逐渐提高,视频质量评价技术也随着行业标准体系的完善而成熟。档案业务中所涉及的视频档案数据主要是录像数字化副本和视频电子档案。由于实际工作过程中出现的种种因素,诸如前端质量控制不到位、技术条件不完备等,接收进馆的视频档案质量良莠不齐,往往需要对视频档案数据进行二次治理,要想把好档案数据质量关,视频档案质量评价的方法研究十分必要。
实现视频档案质量智能评价的现实意义
视频档案质量智能评价对加强档案体系的建设具有重要意义,具体体现在以下三个方面:
1.指导收集,提高进馆质量
虽然目前视频档案相关的标准规范已然更加完善,但由于起步较晚,在新生视频档案的收集过程中,难免因为各种因素导致档案数据不规范、要素缺失,需要后续进一步著录加工或修复完善,档案质量智能评价可以利用当下一段时期较为优秀的视频质量标准,对大量视频档案资源进行规模化评价分类,并有针对性地指导视频档案收集工作,进而提升馆藏资源质量。
2.技术赋能,提高工作效能
人工智能技术促使产业转型升级的案例已经数不胜数,档案行业由于保密性要求对先进技术的应用往往存在滞后性,但这也为借鉴学习先进方法,进而融合应用先进技术的发展规划留足了时间,视频档案质量智能评价技术实现了对档案质量评价的定性到定量的智能化转变,有助于加强档案部门对档案数字资源管理能力,提升档案工作效能。
3.加强治理,提升利用效果
人们追求物质生活水平提高的同时,也经常从历史的艰苦奋斗中攫取力量,视频档案作为目前档案资源体系中的重要组成,其生动形象、沉浸体验的特性是文书和照片档案无可比拟的,通过应用智能评价模型,对不符合质量要求的视频档案进行质量提升治理,将大大增强利用的体验效果。
视频档案质量智能评价的背景分析
视频档案质量智能评价与现有的视频档案标准规范的不同之处在于,并非是简单地判断是否符合定性条件,而是对任何即将进馆的或是已经收入馆藏的视频档案资源进行定量评价,从而判断出视频档案质量与当下先进视频编解码标准的差异,进一步对修复提升评价表现较差的视频档案提供借鉴。
在视频编解码领域中,由于视频采集设备、拍摄目的等因素的多样性,采集完成的视频码率、文件大小各不相同,这对于网络传输、存储等后续操作提出了很大的挑战。因此,多数情况下采集好的视频会通过一定程度的压缩,来确保观看、存储的流畅性、便捷性。视频质量评价一词指通过主观观看和客观评价的方式,对两幅或单幅主体内容的视频图像信息进行感知衡量,目的是更好地比较压缩前后视频间的质量差异,进而评估不同压缩算法之间的优劣。随着实际应用过程中视频问题的不断精细化,一方面,针对不同视频问题的算法也被逐一提出,例如关注最大信号值和噪声值关系的PSNR(Peak Signal-to-Noise Ratio,峰值信噪比)、关注边缘和纹理结构的SSIM (Structural Similarity,结构相似性)等算法至今在计算机视觉各个领域中应用广泛;另一方面,随着对视频质量问题更加深入的、清晰的理解、区分和定义,视频质量评价领域的研究范围也进一步扩大,从原本传统的全参考方法到结合人工智能学习模型的无参考评价,视频质量评价的方法越来越精确,应用也越来越广泛。
视频作为一种信息承载媒体充斥着人们的工作、生活,人们在社交媒体平台上传、传播,下载视频的数量巨大。这样的过程对视频的编解码速度、存储空间,以及不同设备平台之间的流式传输速度提出了巨大的要求,进而在视频大小和画面质量之间的取舍就成为一个重要问题,于是针对用户生成内容的视频质量评价技术研究(UGC-VQA,User-generated content videoquality assessment)应运而生。
受到机器学习浪潮的影响,人们往往将是否使用了机器学习相关算法的研究方法区分为传统方法和基于学习的方法。在UGC-VQA领域中,传统方法的实现往往基于某种数学模型的提出,例如基于统计模型的GM-LOG算法和利用不同色彩空间和感知转换的FRIQUEE算法,而近年来深度卷积神经网络的发展,使得在没有参考图像标准的情况下,也能让模型对视频数据质量进行评估打分,例如Kim等人提出的DeepVQA模型可以学习到视频画面中时域和空域的视觉敏感度转换,从而回归计算质量得分。
在档案业务中,电子档案和录像带的数字化副本都涉及视频质量问题,这与前文提到的生产生活中的用户自生产视频的概念不谋而合,只不过前者的生产者更多面向政府机关单位,而后者是商业化的社交媒体平台,面向广大公众,这样的差异只体现在数据类型的不同,而不会影响模型的评估效果。
视频档案质量智能评价的框架构建
UGC-VQA研究与当下档案工作中将要接收的大量视频档案业务存在共性,例如研究要求视频内容由个体产生拍摄,并且并不局限视频的拍摄设置、加工编辑、压缩转码传输,所以最终用于观看的视频往往存在未知的多种失真,而且棘手的是,没有参考视频做判断,这就使得质量评价预测的难度大幅增加。笔者拟在借助搭建VIDEVAL无参考评价模型,对视频档案内容质量进行评价打分,为优化馆藏资源质量提供参考建议。
1.前期准备
人工智能技术的实现离不开数据集、模型算法和硬件的支持,所以在前期准备阶段要做好数据和模型算法的相应处理。
(1)训练数据
VIDEVAL模型的训练数据包括当下学术界通用的三个大规模UGC-VQA数据集,分别是K0NViD-1k,LIVE-VQC和YouTube-UGC(如表1所示)。与实验室模拟数据的不同之处在于,这些数据都是从真实世界中直接拍摄录制的,与视频档案数据的多样性存在极大的共性,譬如分辨率、帧率等视频档案元数据特征。为了确保质量评价分数的准确性,数据集的构建都邀请了大量的志愿者作为支撑,这一过程免去了使用大量档案数据的复杂性以及涉密数据的泄露问题,当然,如果使用真实的档案数据作为训练数据,最终的实验效果将会进一步提升。表1中列举了3个数据集的相关特征作为补充。需要额外说明的是,实验最终采用的是1~5分的连续分制,相较于绝对分制更加灵活。
表1 UGC-VQA常用数据集介绍
在实验数据方面,选用部分档案数据及网络视频资源,其中档案数据选用分辨率720p、帧率25帧/秒的视频档案,截取其中时长10秒的片段,从而实现与训练数据较为近似的测试数据,也能尽可能地确保评估分数的准确性。为了方便展示,笔者选取了2段网络视频内容作为分数评估的范例,并在实验部分做了进一步说明。
(2)模型框架
笔者结合人工智能VIDEVAL模型设计了应用于视频档案数据治理工作的流程框架(如图1所示)。要准备好待评价的视频档案数据,这些数据可以包括即将接收进馆的、征集收集的以及已经入库保存的视频档案数据,在使用VIDEVAL模型进行质量评价打分之前,要对视频数据稍做处理,因为计算机的显存空间有限,无法承受模型读取视频数据后呈指数式增长的数据总量,这一步往往选用片段分割的方法进行,最简单的方法就是在同一条视频数据中,随机截取多条10秒左右的视频片段,对每一条片段的关键帧进行定位提取,利用相关算法计算视频内容的特征向量,这一向量通常代表着画面内容、颜色饱和度、亮度、锐度、模糊噪声等的数学描述,再依据一定的比例进行加权平均,由此便得出了这些截取片段的质量评价分数,一般来说,同一个视频数据的分数相差不大,可以使用单独片段得分作为评价结果,为了更精确的结果也可以将多段结果的得分进行平均得出最终结果。需要注意的是,在整个评价框架中,不对档案数据原件做任何改动,进行修复增强或是裁剪截取的都是备份数据,确保档案的原始属性不被破坏。
图1 档案数据治理工作应用视频档案质量评价模型框架
(3)应用评估
从智能评价模型中输出对应视频的评价分数可以作为视频内容实际质量参考。譬如以75分为及格线,在1~5分的分制下,低于3.5分的视频档案就应当考虑应用一些档案修复技术进行增强,并如图1所示重复之前的评价流程,直到档案数据达到合格分数。对于达到当前时期质量要求的视频档案,可以将其作为视频档案数据治理的范本数据,指导视频档案整理工作,最终实现对总体视频档案内容质量的优化提升。
2.模拟实验
笔者描述的视频档案质量评价模型可以对整体馆藏资源及准备接收进馆的视频档案进行评价打分,基于保密性要求和硬件设备限制,模拟实验在一台装配了NVIDIA GeForce RTX 3090显卡、Inteli9-12900K处理器的本地计算机上进行部署,这能为模型运行提供算力支持,以验证质量评价模型的可行性,实验过程如下:
(1)实验数据准备
模拟实验用到的实验数据包括部分公开的视频档案数据和网络视频数据,做好备份工作后,使用FFmpeg软件对视频数据进行截取,对原视频格式不做改变,统一截取10秒片段保存备用。
(2)搭建Python运行环境
VIDEVAL模型所需要的运行环境需要在3.7版本的Python软件下搭建,主要使用Scikit-learn软件包完成运行,这一软件包会同时安装好NumPy,SciPy等辅助软件包,以满足实验对相关人工智能算法的编写需求。此外,还需要额外安装Matlab软件作为计算辅助。
(3)模型搭建及参数编写
VIDEVAL模型的核心算法是SVM(支撑向量机)人工智能算法,这一算法的核心功能是实现与目标函数相关的分类,VIDEVAL模型使用这一算法,将计算得到的视频质量特征向量进行分类,将与评价结果相近的特征向量筛选出来,并按照相关程度进行加权,得到最终的评价结果。另外,不同设置的视频往往在分辨率、帧率、色彩空间等元数据属性上存在差异,为了便于模型计算相关结果,在运行之前向模型提供一个额外的Excel表格文件,在其中保存这些相关的元数据信息。
(4)模拟运行
将第一步中准备好的视频数据导入VIDEVAL模型中,使用GPU显卡加速计算过程,平均每段视频的处理和计算时间在10分钟左右,因为需要计算60个不同的特征向量,所以处理时间会相对较长,如果使用GPU服务器运行可以极大地缩短这一过程,模型最终会反馈与输入视频数量相同的结果分数。
表2中总结了模拟实验中用到的实验数据信息及对应的得分,与前文所述相同,选取的这一批次档案数据都是分辨率720p、25帧/秒的视频档案,而在网络数据方面,选取2个画面效果本身很差和很好的代表,用来说明模型的适用性广泛,而非对任何的视频输入都打出类似的分数。
表2 实验数据测试结果表
从表2不难看出,抽样选取的档案数据平均得分不到3.2分,没能达到百分制评分下预定的75分,所以即使没有查看视频档案的实际内容,依然可以做出视频档案数据需要增强修复的判断。实际查看后发现,原视频档案内容的画质较为模糊,部分场景噪声较为严重,因此应用了一定的修复技术进行视频增强,并让VIDEVAL模型重新进行质量评价,最终得分平均上升超过了1.1分,图2中显示了增强前后视频档案画面的对比。
图2 视频档案增强前后的质量对比(左为增强前,右为增强后)
此外,为了验证模型也具备良好的适用性能,还选取了2个典型的网络视频作为参考,通过横向对比可以发现,并非是分辨率、帧率等视频元数据属性造成较大的得分差异,而是视频内容本身的画面质量造成的,这也可以印证模型评价结果较为准确。
通过上述实验,说明VIDEVAL模型可以定量的评价视频档案质量,帮助完善优化馆藏档案资源体系,而对于未来的研究方向可以进一步细化,将综合得分的细则进行拆分,模型本身就可以给出详细的视频档案增强修复建议,甚至预测视频档案数据增强后的实际得分,助力档案行业智能转型升级。
结语
人工智能技术的快速发展让人们和社会生产见证了“AI+”的创造力量,笔者借助VIDEVAL模型尝试构建了视频档案数据治理过程中应用质量智能评价技术的流程框架,并应用了部分公开的真实档案数据进行实验,验证了框架流程的可行性,但受到硬件设备的局限,该研究想要扩大应用需要一定的算力支撑,后续笔者将通过使用更多的真实数据进一步验证评价模型的有效性,丰富该项技术在音视频档案数字资源“收、管、存、用”业务环节中应用场景的研究,提高音视频档案数字资源的治理水平。
[本文系国家档案局科技项目“人工智能技术在音视频档案数据治理工作中的应用研究”(项目编号:2022-X-066)的阶段性研究成果]
作者单位:北京市档案馆
责任编辑:王辉