跨媒体智能检索的应用研究——以科技名人档案为例

发布时间:2024-01-12 17:44:12被阅览数:733 次信息来源：《中国档案》

　　文/朱雨晨周钊颜祥林聂曼影

　　随着社会对档案价值认识的加深，公众对档案利用服务的需求也日趋多样。如何从海量、多种媒体形态的档案中快速且精准地搜寻到用户所需信息，以提供更加个性化和知识化的档案智慧服务，是目前的档案检索亟须解决的难点。而在实际的档案管理工作实践中，对跨媒体智能检索的需求也与日俱增，一是档案工作者在以主题、人物、事件等为线索进行档案信息资源开发时，往往需要依靠一定量的人工进行跨类档案的查询和研读，而面对多种类型或多种媒体形态的档案资源库，不仅任务繁重，也无法保证检索的全面性和精准性，工作效率也难以提升；二是档案的收集整理、编研、利用等工作往往由不同的档案人员负责，这种职责的划分又由于相关人员对馆藏熟悉程度的差异，影响着相关档案检索的效能以及后续信息整合的难度。

　　笔者曾在科技名人档案资源开发过程中依赖人工进行人物学术成长的时间线梳理，由于涉及的档案类别横跨15个类别，更涵盖文本、图片、音视频等多种媒体形态，譬如在研究老科学家与其导师交往情况时，笔者以传统检索方式查找各类资料、关联相关信息时耗费了大量精力，也很难做到面面俱到，最终形成的研究成果的全面性、精准性必然受到影响。基于上述现实，跨媒体智能检索在科技名人档案中的应用具有积极意义，可以进一步辅助此类档案开发利用、形成知识化的成果，在提高档案工作者效率的同时，为社会公众提供更加高效、智能的档案利用服务。

　　智能检索技术简介

　　智能检索可以认为是利用人工智能的方法从海量信息中查找所需的信息或知识。根据检索对象和检索内容的不同，可以大致将档案智能检索方式分为单一种类媒体数据的检索和跨媒体检索；不同检索方式的整体流程如图所示。单媒体检索是对于同种媒体档案数据的筛选与定位，根据媒体类型包括基于文字内容的检索、基于音频内容的检索和基于视觉内容的检索等。其中，基于文字内容的检索查找数据库中与检索文字匹配的文字内容，基于音频内容的检索是借助语音识别特征查找相似的语音片段，而基于视觉内容的检索可以将人脸或场景图像作为检索内容，查找到包含该人物或相似场景的照片或视频档案数据。

智能检索的整体流程图

　　跨媒体智能检索是对多种媒体形态档案数据相关性的挖掘，是实现输入单一媒体返回检索多种媒体档案数据的综合检索。随着人工智能研究的深入尤其是计算机视觉、自然语言处理等领域各类深度学习新算法的提出，跨媒体检索的技术方法也在不断突破，其中的关键技术包括数据的深度特征学习和跨媒体关系建模，前者实现不同媒体数据的特征表示，后者则是对其相关性进行计算与比较。在深度特征学习方面，针对文本数据，主要利用领域相关的语言模型将数据转化为语义特征表示，如词嵌入方法Word2Vec、自注意力方法Transformer和预训练的语言表征模型BERT等；针对图像数据，首先通过检测算法定位图像中的关键要素，再通过识别模型转化为图像的特征表示，代表性算法包括用于图像识别的AlexNet、ResNet、Vision Transformer及用于物体定位的Faster-RCNN、YOLO、DETR等。在跨媒体关系建模方面，主要学习跨媒体数据间的相似度。度量学习方法是一种普遍采用的方法，其目标是算出针对某个特定任务的度量距离函数。另一类方法是固定度量函数，但更新不同模态数据的特征表示网络的参数。以对比图文预训练（CLIP）模型为例，其采用对比学习的框架，以图像和它对应的文本描述为训练数据，首先分别利用不同模态对应的Transformer网络结构提取出文本特征和图像特征，再直接计算文本特征和图像特征的余弦相似性；模型的训练过程将保持相似性计算函数，但更新前序Transformer网络的模型参数，从而实现不同媒体数据的关系建模。

　　上述提到的单媒体和多媒体的智能检索技术，在档案开发利用过程中将大大降低人工查找的成本，不仅在检索数据的全面性、准确性上享有优势，更能实现同一主题关键词下不同媒体档案资源的抓取，进而辅助档案工作者对相关数据信息的关联与整合，提高档案工作者的效率，满足业务管理与用户查找的多元化需求。

　　跨媒体智能检索的应用

　　笔者将跨媒体智能检索技术应用到前期参与的老科学家学术成长采集工程项目的场景之中。项目以老科学家的学术成长经历为主线，系统采集反映老科学家求学、教学、科研等活动的各类口述资料、音视频资料和书信、手稿等文献资料以及相关实物资料。这些资料是档案文化建设的鲜活素材来源，但其档案内容繁杂、类型多样的特点也增加了档案编研与知识挖掘的难度。笔者结合项目实施过程中形成的著录条目信息与档案资料数字化副本，就跨媒体智能检索技术的实际应用方案进行了探讨。

　　跨媒体检索是输入某一种媒体作为检索项，可以查询返回多种不同媒体形态的档案数据，适用于发散性检索。其实质是借助人工智能、深度学习相关技术与算法进行数据特征表示与相似度计算等，最终实现档案数据的智能化检索。一般而言，跨媒体检索的检索项可以是“文本”“图像”“视频”“音频”，其中视频对象和音频对象主要是转化为文本数据或图像数据，故此处主要介绍以文本内容和视觉内容为检索项的智能检索应用情况。

　　一是以文本内容为检索项，实现“文本—文本、音频、视频、图像”的跨媒体智能检索。以科技名人档案开发为例，若需研究老科学家与其导师的交往经历，可以其导师姓名进行查询，除借助OCR技术实现文本内容的查找外，还可以进一步借助语音识别、视频内容解析等智能技术，对口述访谈音频、相关视频进行声音内容的识别，标记提及其导师的时间段；此外还可以借助深度学习相关算法，对关键词进行语义理解，根据预设的图像特征向量查询相关人物照片或视频资料。

　　二是以视觉内容为检索项，实现“图像/视频—图像、视频、文本、音频”的跨媒体档案数据匹配与筛选。如以科技名人的某次口述访谈视频片段为查询样例，借助算法提取包含清晰人脸的关键帧，经图像识别、特征提取与特征向量匹配后，可以查询到包含其该人物的图像，定位并标记该片段所在完整视频的时间节点等；而通过人脸图像与查询到的人物姓名预设的关联数据，可以进一步实现对名人访谈文本、手稿、信件、音频等档案数据的查询。

　　跨媒体检索在实现多种媒体类型档案数据查询过程中，还涉及对检索项的语义理解，以文本为例，输入“教学”这一关键词，可将其进行语义特征表示，最终返回符合其语义的查询结果，如口述访谈音频中回忆授课经历的时间段、上课照片、全国模范教师证书等检索内容。

　　跨媒体智能检索应用展望

　　跨媒体智能检索将为档案资料的查找提供更加便捷、高效的技术方案，也为实现不同媒体形态的档案数据关联提供可能。

　　从技术层面来讲，跨媒体智能检索能够处理更为复杂的数据场景，例如手写字、繁体字、低精度图像等；能够利用知识图谱等技术挖掘多媒体数据之前更深层次的关联。

　　从应用层面来讲，跨媒体智能检索可以辅助年鉴、大事记等编研工作，如在研究科技名人档案、编写老科学家大事年表时，查询到某一节点事件中涉及文本、图片、音视频在内的多种媒体形态的档案数据，帮助档案工作者更好地进行相关事件的图文关联；可以支持知识图谱等档案知识开发手段的应用，如通过跨媒体档案数据的查询与关联，为形成老科学家与导师、同事、学生等人物实体关系图谱创造条件。

　　总的来说，跨媒体智能检索技术实现了档案数据从单媒体到跨媒体的查找与获取，拓宽了档案信息与内容查找的方式与路径，对档案工作者提升档案管理水平、推进档案深度开发利用具有长远意义。

　　作者单位：南京大学信息管理学院、上海兑观信息科技技术有限公司、国家档案局科研所

　　责任编辑：王辉

下一篇：“深度求索”(DeepSeek)带给档案人的深度思索

上一篇：科研电子文件归档与电子档案管理探索性研究

最新推荐

跨媒体智能检索的应用研究——以科技名人档案为例