基于智能词表的电子档案和政务数据深度挖掘技术及应用工具

发布时间:2024-03-06 14:19:38被阅览数:195 次信息来源:《中国档案》

  文/王宪东  孙洪鲁  赵琳

  当今社会,信息技术高速发展,提高档案数据的利用服务水平是各级档案部门亟须解决的问题。传统的档案数据检索依托档号、标题等方式进行,已无法满足人民群众对高质量档案利用服务的需求。

  编制主题词表是一种传统的知识组织方法,国家档案局曾在1988年和1996年两度主持编纂了《中国档案主题词表》,对提升档案专业领域的知识组织水平起到了巨大推动作用。而借助信息化手段,对主题词表领域传统的汉语分词和标引技术进行自动化改造,并将其应用到档案知识组织之中,有利于开发基于专业词表的智能检索工具,提高档案数据检索效率和利用服务水平,使利用者通过日常语言词汇即可精准、全面地查询到所需的档案。

  为此,山东省档案馆、中国科学技术信息研究所、济南有协信息科技有限公司等单位组成联合课题组,组织开展“国家政务数据深度挖掘和社会化服务体系建设研究”,并向省科技厅申报了山东省重点研发计划项目,获省科技厅立项批准,项目研究形成的科技成果“基于智能词表的电子档案和政务数据深度挖掘技术及应用工具”获2022年度国家档案局优秀科技成果三等奖。

  研究目标

  该项目的研究目标是构建一套完整、全面的电子档案知识体系,利用知识组织技术、语义分析技术、数据挖掘技术、人工智能技术等对现有电子档案资源进行解构、重构和关联管理,实现专题档案的快速组织、智能检索和可视化展现,面向机关、企业和公众提供专业的社会服务,满足社会对档案的利用需求,提高档案的利用率,实现社会价值。

  主要成果

  1.开发政务精准数据知识组织工具

  利用最新的主题词表构建方法和相关标准,为档案部门提供的专业词表构建和管理所需的软件工具,支持专业词表的协同编写。该工具可对专业主题词表进行加工、审核和发布,实现词表的录入、构建、扩建、维护、词间关系控制、查询、输出及在线发布等功能,能够从组织机构、年度、时期、作者等多个维度构建档案分类体系。工具以《中国档案主题词表》为基础,以电子化的档案数据作为基础语料,主要采用新词发现、同义词推荐、词间关系推荐、词分类知识推荐等自动化方法,辅以人工专家审核的方式对档案专业词表进行构建及维护。

  2.编制最新档案专业词表

  以1988年、1996年《中国档案主题词表》《综合电子政务主题词表》《中国档案分类法》为基础,将上述词表内容转化为电子化数据,利用词表合并、词表逻辑一致性检测等算法将3个基础词表进行合并,将合并后可信度较高的词条推荐给相关领域专家进行审核,审核后形成新的《政务机关文书档案专业词表》。

  《政务机关文书档案专业词表》是从档案工作的自然语言中优选出的经规范化处理、有组配功能、显示语义关系的档案名词术语表。表中的主题词分正式主题词和非正式主题词。正式主题词是对电子档案标引和检索时用以表达电子档案主题概念的优选词,又称为叙词;非正式主题词是正式主题词的同义词或准同义词,在政务机关文书档案专业词表中只起指引作用,不能用于标引和检索,又称为非叙词。

  作为研究基础的《中国档案主题词表》的主题词有25891条,其中正式主题词21785条;其附表—人名表和机构名表,分别收录明、清以来11771位名人和1900个中央级党、政、军机关及有影响力的社团、企事业机构的名称。《综合电子政务主题词表》共收录主题词20252条,其中正式主题词17421条,非正式主题词2831,范畴索引划分为21个大类,132个二级类。《中国档案分类法》“一法四表”由中华人民共和国档案分类表、新民主主义档案分类表、民国档案分类表、清代档案分类表4个表组成,类目总量10万条。结合上述数据,《政务机关文书档案专业词表》涉及的逻辑关系包括词间逻辑关系和词条与分类法类目逻辑关系,总计约为100万条。

  3.开发电子档案内容自动标引工具

  系统以构建的档案专业词表为基础,依据档案分类体系,结合词汇的词频统计、在档案内容中出现的位置等信息,实现档案内容的主题标引和分类标引2种功能:

  (1)主题标引

  鉴于党政机关文书档案频繁有新词出现且涉及领域较广,开发时采用基于词典的分词技术和N-gram技术相融合的分词方法。首先采用基于词典的分词技术将常用词进行切分处理,再对词典中的未登录词采用N-gram技术提取,这样既可以大大减少N-gram处理的信息量,又可以弥补词典、专业术语所引起的词汇不足的问题。在确定主题标引词时,同时将词出现的词频和位置因素作为党政机关文书档案数据的有效测度指标。

  (2)分类标引

  在处理分类标引时,综合使用主题标引中得到的主题词及归档文件的发文机关,在词典中为每个主题词增加类目属性,指出主题词所属档案可能对应的分类号。在主题词专指性较强时,以其为主题标引词的文献类别固定,直接确定分类标引;当一个主题词对应多个类,按主题词无法确定大类时,根据发文机关确定大类,然后再根据主题词分细类。对于不属于上述情况的标引,采用基于支持向量机的机器学习方法或模糊分类法确定档案所属的类目。

  4.开发词表间关系可视化工具

  利用ECharts等可视化组件,实现树形和关联网络的可视化,构建词表间关系可视化工具,主要包括3个功能模块:

  (1)基于分词词表的检索内容关联展示

  对词条及其层级关系以树状可视化形式进行展示,实现多级展开和折叠。对词条与相关词条所有相关关系以关联网络方式进行可视化展示。点击关联网络的其他节点,自动切换展示以该节点为中心的关联网络。利用复选框显示或隐藏各种类型的词条及其关系,便于清晰地观察特定词条类型和关系类型。提供可视化界面展示的缩放、拖拽、点击、悬停等多种丰富的人机交互功能。

  (2)基于词表的检索概念词云展示

  以输入的检索词为基础,通过相关技术分析与检索词相关的概念词云,点击某概念词,自动切换该概念词相关的概念词云图。

  (3)基于词表的检索标签词云展示

  动态展示与检索词相关的标签词云。点击标签词,可自动切换以该标签词为基础的标签词云图。

  5.档案智能检索平台

  档案智能检索平台以构建的档案领域词表及标引后的党政机关文书档案数据为基础,实现检索时的扩检、缩检、检索相关词提示等功能,从而更加快速地搜索满足其个性化需求的信息资源,大大提高公众获取档案的效率和能力。具体包括:

  (1)简单/组合检索

  根据档案关键字或多个组合条件实现档案快速检索。允许用于自定义查询条件,比如“题名”“包含”“山东档案局”,提供多种逻辑操作符(等于、大于、小于、不等于、包含等),并可以用“并且”“或者”组合多个条件。

  (2)主题检索

  根据主题标引的结果进行主题检索,又分为单主题检索和多主题检索。单主题检索指单个主题词构成检索,多主题检索由多个单主题构成检索,用于提高检索准确率。

  (3)分类检索

  根据分类标引的结果进行检索,将性质相同的档案线索汇集在一起,分门别类地组成一个检索体系,从而提供不同类别中的搜索。

  (4)模糊检索

  在检索页面搜索框中输入搜索关键字以后即可进行全库模糊检索,可按照档案标题、全文、档号、关键字、归档日期等任意一个或多个字段进行模糊查询。提供在结果中进行二次检索的功能,以得到更精确的结果,实现渐进式搜索。

  (5)同义词检索

  由后台提供同义词词库,输入关键字检索时,系统首先在同义词词库中查找输入的关键字,查询该关键字所有同义词,再分别以这些同义词为检索词在系统中检索,最后将所有的检索结果通过列表的方式显示。

  (6)智能推荐

  系统根据输入关键词进行智能推荐,在检索结果页面的适当位置显示该关键词的关联词,以“相关搜索”的形式推送。

  (7)智能检索提示

  根据用户输入的前一部分关键字可自动列出后半部分可能要输入的文本部分,便于用户选择。

  成果主要创新点

  1.智能检索方面

  通过基于知识组织与深度分析的电子档案数据智能检索关键技术研究,改变目前传统的检索方式,构建了以词间关系方式为基础的电子档案数据检索。

  2.档案词表方面

  通过研究,形成了最新的中国档案专业词表库,编辑出版了《政务文书档案专业词表》,对24年未更新的文书档案词表进行了更新。

  3.智能构建方面

  创新性地提出用专业词表和档案分类体系相结合的方法,自动标引电子档案内容,并以此作为基础,为电子档案数据进行基于内容的深度检索提供服务。

  4.知识关联方面

  创新性地采用可视化方案建立档案领域专业词汇与电子档案数据之间的关联、指引,有利于以专业词汇为线索,建立不同来源档案之间的关联关系,为电子档案管理提供了重要的实践。

  推广价值和研究展望

  文书档案是形成数字档案资源的重要来源,项目研究的依托词表技术构建的档案知识组织方式、数据关联方式、智能检索方法对提高文书类数字档案资源管理和利用效率具有重要的参考意义。下一步,将围绕引入语音技术、优化档案知识组织、提升智能检索效率等方面进一步加强研究,不断完善研究成果,切实提高档案服务社会和人民群众利用的水平。

  [本文系2022年度国家档案局科技项目获奖成果]

  作者单位:山东省档案馆

  责任编辑:王辉