人工智能技术在音视频档案整理利用中的应用研究

发布时间:2024-02-06 09:05:34被阅览数:432 次信息来源:《中国档案》

  文/林空  李衍

  浙江省档案馆、讯飞智元信息科技有限公司承担的“人工智能技术在音视频档案整理利用中的应用研究”课题于2019年5月被国家档案局正式立项。2021年3月,课题通过国家档案局验收。2023年1月,项目成果获得国家档案局优秀科技成果二等奖。该课题构建了音视频档案管理平台,规范了音视频档案数据化业务流程,为实现人工智能技术辅助音视频档案整理利用提供了解决方案,具有推广价值。

  研究背景

  随着大数据时代的到来,电子档案海量增长,音视频档案在电子档案中所占的比重也越来越重。然而国内外对于人工智能技术在音视频档案整理利用上的学术研究还几乎处于空白阶段,目前国内档案部门对音视频档案的整理利用还停留在人工视听阶段,著录方式是一边看一边听一边录,著录内容仅是简单的主题、责任者、文件格式等信息,要真正了解内容需打开音视频档案进行收听、观看等操作,这无疑是低效的。利用人工智能的相关技术——音频转译文本技术和人脸识别技术,对音视频档案进行结构化处理,通过技术应用让音视频档案可以实现“以图找图、文字搜图、分帧查询”等一站式检索,真正盘活音视频档案。

  研究内容

  1.基于实时及长时语音文本转译技术及设备的研究

  实时语音是指实时采集口述档案、实时记录重大活动等在线场景下产生的音视频档案,长时语音是指离线场景下馆藏的音视频档案,基于以上2种应用场景进行语音转译文字的处理与研究,并输出数字全文内容。同时,研究针对口述场景、重大活动、会议等场景下小型、安全、便携式采集、数据化、归档一体终端设备。

  2.辅助人工进行音视频档案条目著录的研究

  自动识别音视频档案内容中的相关著录项,辅助人工进行音视频档案的条目著录,将典型的著录项如题名、时长、类型等直接提取到档案著录页面,并通过结构化后的数据标签、副本解析抽取,完成著录信息的补充,实现著录页面内容的查询和维护。

  3.基于视频图像内容结构化的研究

  视频图像内容结构化的研究指对视频包含的图像、音频作内容分离解析,并抽取关键信息归档及标签化,通过人脸识别技术,将带人物人脸的视频资源进行结构化,实现人脸标签记录及人物库的建立。

  4.音视频档案管理过程智慧化场景应用的探索

  音视频档案字幕应用,在归档时自动生成字幕文件,并在播放时实时匹配显示字幕;文本或图像与音视频匹配应用,在数据化基础上,点击文本中的文字或输入人脸图像时,能够跳转播放相对应的音视频位置;文字与图像智能检索应用,以文字作为输入源可检索视频中人物图像,以图像作为输入源可检索视频;视频档案自动打点应用,针对新闻联播档案归档技术及分段预览,通过预置打点规则,自动拆分视频档案;音视频结构化后的数据,支持多副本复合归档的模式;全过程数据流转、结构化处理过程安全技术的研究。

  研究成果

  1.研发音视频档案转译文本的引擎

  采用业界领先的深度全序列卷积神经网络,直接对整句语音信号进行建模,可以出色地表达语音的长时相关性,相比主流的RNN网络结构在鲁棒性上更加出色,同时可以实现短延时的准在线解码,全面提升通用识别效果。通过对浙江省档案馆馆藏音视频档案数据及其他档案数据内容的标注提取,完成档案专业词汇积累8000多个(口述视频训练+档案专业词库),目前,平台及设备搭载的音视频档案转译文本引擎已集成应用,在相同发音的语境场景、语句、词语等会优先识别为引擎训练后的词语。相关指标的性能参数及要求如表所示。

音视频档案转译文本引擎性能指标参数表

1.jpg

  2.研发音视频档案智慧管理平台

  研发能够提高音视频档案文本转化效率、符合国家著录规范的音视频档案智慧管理平台,并集成于数字档案馆中。

  (1)音视频档案自动著录

  根据音视频档案源文件属性,由于音视频档案著录的信息点一般比较多,为尽可能减少录入工作量,平台提供系统自动获取源文件属性内容功能,允许将典型的著录信息如题名、时长、类型等直接提取到档案著录页面,同时确保著录页面内容可以查询和维护。

  (2)音视频档案智慧管理

  针对新闻联播、口述史料、重大活动等音视频档案,平台具备视频自动打点(通过预置打点规则)、拆条功能,利用音频转写技术及文本分析技术,对音视频内容进行文字转译、著录项填充、人脸提取,形成一套音视频档案智慧管理模块,支持音频、视频、文字点对点应用预览及字音图同步,实现音视频档案的智慧化整理和利用。

  (3)音视频档案智慧存储

  利用人脸识别技术,在视频档案存储过程中检测提取人脸,建立视频人脸库。通过对比人脸库完成视频人物标注,同时支持“1VN”人脸库信息检测,关联视频所在事件文本信息。打破视频文件传统存储模式,打造“视频+音频+文字+人脸+目录”创新存储模式,加速视频文件内容的快速检索利用。

  (4)音视频档案智慧利用

  支持关键搜索内容一站式检索,支持输入文字或图像对音视频档案检索利用,检索包括题名、标签等目录信息及原文结构化后的副本信息检索,全画面展示数据化文本结果、关联视频及相应时间轴定位信息。在人脸识别上,通过提取两张人脸的特征进行相似度比对,最终返回相应的置信度得分,用于判断两个输入人脸是否属于同一人,适用于身份识别及相似脸查询等应用场景。

  3.研发音视频档案管理的应用设备

  该设备依托档案机硬件设备,基于浙江省口述及重大活动场景的应用特点,开展功能定制及语料机器训练,进一步实现音频档案采集记录、转写、著录等功能(离线),并支持与音视频档案智慧管理平台的对接。设备内置离线语音转写引擎,实现纯离线转写,用户数据的采集、转写处理、存储与输出均在设备本地完成,不涉及任何联网与数据传输环节,在没有人为干预或传播的前提下,所有转写相关数据仅存在并流转于设备内部存储中,非该设备的实际操作用户无法接触任何相关数据。同时,内建安全管理机制,从应用安全、数据安全和入侵防范3个层面,确保用户数据安全可控,有效规避数据泄密等安全事故,适用于各类场合使用。应用设备在采集完数据后,可以通过接口传输的方式将数据传输到音视频智慧管理平台中进行加工处理,对音视频档案进行深层次挖掘,实现音视频档案的数据化,达到盘活音视频档案的目标。

  创新突破

  中办国办印发的《“十四五”全国档案事业发展规划》中对档案业务中语音识别技术的有效应用提出更高要求:“加快档案资源数字转型,加快推进对重要档案数字化成果进行文字识别和语音识别。”2022年国家档案局科技项目立项中也明确了“档案信息化建设方面—音像档案语音和图像识别”的选题指南。人工智能语音识别技术为档案事业高质量发展提供了坚实的技术支撑。本课题通过应用人工智能技术,部分解决了音视频档案管理工作中的痛点难点问题,解放人力、提升效率、提高档案整理利用水平。经实践统计,1小时时长的音视频档案,通过平台处理在10分钟可以完成数据化——打点——拆分——质检——标注归档的全流程作业,极大地提升了音视频档案信息化管理质量和效率。

  1.音视频档案采集

  通过研发应用设备,提升在口述档案、重大活动、会议等场景下的信息采集深度及专业度。在传统导入导出的基础上,通过配置采集路径的方式,实现接口路径数据传输,相比传统方式而言,数据采集更高效、更便捷、更安全。

  2.音视频档案管理

  利用语音识别、语音转写、自然语言理解技术,实现音视频档案的全文识别和自动著录,显著提升档案整理、利用的效率与准确性,为后期检索利用夯实基础。

  3.音视频档案保存

  打破传统音视频文件单一存储模式,实现音视频档案与结构化后的数据有序存储。利用人脸识别技术,在视频档案保存库中检测提取人脸,建立视频人脸库。通过对比基础人脸库,支持“1VN”人脸检测,关联输出视频及视频所在事件文本信息。

  4.音视频档案利用

  对传统音视频数据进行提取解析,输出更多的转写文本数据、标签,通过数据、标签可以对档案按照文种、年代、机构、进行分类管理和利用,全面实现音视频档案的智慧化利用。

  该课题研究成果可广泛应用于全国各级各类档案机构的音视频档案的管理工作,可为全国范围内人工智能技术在音视频档案的整理利用研究提供借鉴;围绕课题研究而开发的音视频档案转译文本引擎、音视频档案智慧管理平台、音视频档案管理应用设备,也可供各地参考借鉴。

  [本文系2022年国家档案局科技项目获奖成果]

  作者单位:浙江省档案馆、讯飞智元信息科技有限公司

  责任编辑:王辉