发布时间:2025-02-10 17:30:19被阅览数:161 次信息来源:中国档案报 作者:张 静 席笑文 潘亚男
习近平总书记指出:“科学成就离不开精神支撑。科学家精神是科技工作者在长期科学实践中积累的宝贵精神财富。”弘扬科学家精神是档案部门践行存史资政育人使命的重要体现。中国科学院拥有丰富的科学家档案资源。这些档案全面记载了科学家科研、学习、工作和生活的方方面面,见证了科学家的成长经历、学术活动、科学成就及社会贡献,是传承和弘扬科学家精神的重要原始资料。中国科学院档案馆以馆藏特色科学家档案资源为基础,引入自然语言处理、知识图谱等技术,创新档案资源利用方式,建设了集档案资源数据化处理、知识化关联、可视化呈现为一体的科学家档案资源知识图谱平台,极大地提升了科技档案资源质量及服务水平,以便更好地弘扬和传承科学家精神。
主要做法
(一)构建以科学家为核心的本体框架
中国科学院档案馆在调研梳理科学家档案资源基础上,通过参考国内外通用的FOAF、Organization本体,结合科学家知识图谱构建需求,围绕科学家的成长经历、学术活动、科研项目、荣誉奖励及科研关键事件等,构建了以科学家为中心,包含机构、项目、荣誉奖励、各类知识产权、地点、学术会议、期刊出版社、科研关键事件等实体、属性及关系的本体框架,为后续的知识挖掘与关联奠定了坚实基础。
此外,还结合实际进行了个性化拓展。在科学家属性方面,考虑到他们作出了突出的科研贡献,且不乏名言警句,故增加了研究方向、箴言、评语等属性。在知识产权实体方面,除了枚举现有的论文、专利、软著、著作等,还增加了知识产权(其他成果)实体,且设置了成果名称、类型、编号、描述等属性,以期全面准确地抽取科学家或项目产生的重要成果,如新药物、新平台、新设备、新发现等。此外,增加了成果成效、推广应用情况等属性,旨在反映对经济社会发展产生的效益。考虑到科学家在科研生涯中经历的关键事件或取得的重大成果更能刻画阐释科学家精神,故增加了事件实体,从科研成果、科技政策、科研活动3个方面划分相关重要事件,生动直观呈现他们在科研过程中展现出的求实、创新、奉献、协同等精神。
(二)形成高质量的科学家档案资源标注数据集
在借鉴国内外高质量语料库构建实践经验基础上,结合中国科学院科学家档案资源特点,以形成高质量的标注数据集为目标,制定了数据质量控制策略,并提出了科学家档案资源标注数据集的构建路径。
数据质量控制。数据质量直接影响标注数据集知识关联发现的结果与成效。为保障数据质量,中国科学院档案馆制定了《科技档案OCR识别结果校对规范》《科技档案语料标注规范》,为OCR校对及语料标注工作的开展提供了行为准则及指导。开发了OCR识别与校对、语料标注等系统工具,通过人机协作的方式,用算法标注保障基本质量和规范实施的一致性,并通过人工审核调整标注结果,有效提升数据处理与标注的效率与质量。通过选择合适的标注人员、加强人员培训、建立数据处理与标注质量检查机制、加强沟通与问题反馈、不断优化流程等措施,不断提升标注人员对标注规范的理解以及处理的规范性。
标注数据集构建。基于科技档案语料标注规范,采用人机协同的方式,开展标注数据集构建。在数据选取方面,综合考虑科学家档案资源特点及数据集应用场景。同时,遵循全面性、多样性、典型性、高质量等原则,完成了能够相对全面反映科学家科研生活等方面情况的科学家档案资源选取。在数据标注方面,将标注流程划分为预标注与正式标注。在预标注环节,待每位标注人员的标注结果准确率达到95%以上,才可进入正式标注环节,确保了标注结果的准确性与一致性,并将人工标注数据不断用于训练与优化模型,有效提升了标注模型的准确性。
(三)形成科学家本体知识库
创建了以科学家为核心的本体,开展了本体模型的实例化构建,构建了涵盖106名科学家、数万条科研成果和学术关系的科学家知识图谱,形成了106位科学家的本体知识库,共包含5.43万个实体、15.67万条关系。
平台支持科学家本体模型的管理、修改及扩展,具备一定的推理能力,具备可视化操作界面。内嵌实体、属性、关系及事件抽取模型,支持对结构化数据与非结构化数据的知识抽取与关联,并可将抽取结果进行ETL数据清洗、数据融合等,最终将结果存入数据库中。
(四)丰富科学家档案资源可视化形式与检索利用方式
基于科学家本体知识库,引入知识图谱、多种可视化技术,优化了科学家档案资源检索利用方式,从人物关系、科研成果、科研关键事件等维度展现科学家风采。
事件知识图谱。创新性引入事件图谱,系统展示科学家取得的重要科研成就及所开展的重大科研活动,并展现了各科研关键事件间的因果、顺承关系等,从中可感受到科学家追求真理、勇于创新的奋斗精神。此外,将事件描述要素与相关档案资源进行了关联,丰富了检索方式。
人物关系知识图谱。以科学家为核心,全面刻画了社会网络关系,包括师承、论文合作、项目合作、同事、友人及家庭关系等,展示了科学家成长轨迹与学术生涯的关键人物。
科研成果可视化。从学术成果统计、主题词云、学术成果及合作关系可视化等角度出发,立体展现了科学家的重要科研成果。从中可了解到其重点研究方向、科研合作关系及科研成就产出情况,有助于促进知识传承与创新。
基于科学家本体框架的语义检索。支持科学家姓名模糊检索,检索结果包括基本情况介绍、重要事件、人物关系图谱及相关档案,提升了检索的全面性、准确性。
效果及影响
一是提升内容管理水平,为后续档案知识挖掘与关联提供参考。中国科学院档案馆基于科学家档案资源,引入知识图谱、人工智能等新一代信息技术,从资源处理、语料标注、模型训练、命名实体抽取、本体及图谱构建等方面,提出了涵盖档案资源管理全流程的知识服务技术路线,为档案领域开展资源挖掘与服务提供了技术路径参考与方法借鉴。开发了语料标注平台、本体及知识图谱构建及知识图谱可视化平台等,为档案部门设计与开发相关系统或平台提供技术框架与功能参考。
二是有力弘扬科学家精神,提升档案工作社会影响力。科学家知识图谱平台基于科学家本体知识库,引入知识图谱技术,通过可视化和交互式的方式展示了科学家的生平、科研成就和重要事件,是弘扬科学家精神的重要载体。通过该平台,社会公众可直观了解科学家的生平、科研成就和重要事件,增强对科学家成就与精神的认同。对新一代科研工作者而言,可从中汲取灵感与力量,激励自身不断创新,勇攀科学高峰。对档案馆而言,有助于更好地履行社会教育职能,为公众提供更加丰富、生动、有趣的科学教育和文化体验,推动科学文化深入人心。
三是提高利用服务水平,有效发挥档案的重要价值。改变以往举办展览的单一呈现形式,从科学家知识图谱构建视角出发,探索实现了基于科学家本体框架的语义检索,能够更好地理解用户查询意图,提高检索结果的相关性和准确性,提升了档案资源利用效率。开展了科研成果、科研合作内容挖掘与可视化,便于社会公众直观了解科学家风采,查询相关档案。
随着大数据、人工智能等技术不断发展,档案工作数字化转型的潜力将进一步释放。未来,将继续探索新技术在档案工作中的应用场景,推动档案工作智能化、个性化和定制化发展。
(张静系中国科学院档案馆副馆长,席笑文系该馆馆员,潘亚男系中国科学院文献情报中心副主任、中国科学院档案馆馆长)
原载于《中国档案报》2025年2月10日 总第4248期 第四版