构建我国生物信息档案管理体系的思考

发布时间:2024-06-04 19:57:19被阅览数:210 次信息来源:《中国档案》

  文/丁双玫

  生物信息是指调节和控制生命活动的信号,包括遗传信息、神经传导信息和化学信息,是人类、动物、植物和微生物等生命体不可或缺的构成要素。随着计算机科学与基因组技术的发展,生物信息的概念又包括了基因的计算机数据库、数据处理、基因序列信息、生物系统的计算机分析与软件设计等,属于生物信息学或计算生物学的内容,从而形成了另外一种概念。本文讨论的生物信息为广义的调节和控制生命活动的信号,并非局限于生物信息学研究的对象。

  生物信息学起源于对分子生物数据进行利用和管理。20世纪以来,DNA序列、RNA序列、蛋白质序列等生物信息数据大量累积,需利用计算机来记录、储存、分析预测,因此衍生了大量数据管理和数据挖掘算法,同时对生物信息数据规范管理也使其与档案管理建立了密切联系。

  生物信息档案的概念及意义

  生物信息在维系人类生存和发展中蕴含巨大的应用价值,是一种战略性资源。近十年来,随着高通量测序技术的飞速发展,产生了海量的生物信息数据以及各种分析算法,在信息化和数字化发展的大背景下,生物信息数据为生物科技和医疗工作带来了突破性变革。

  生物信息正在成为人类社会发展进程中最贴近生命事实的记录性原始符号,尤其当这些信息对人类社会活动存在凭证作用时,例如,利用遗传序列相似性比对进行的亲子鉴定,其基因测序原始数据是具有档案特性的。基于人类对生物信息数据的挖掘,生物信息数据在不同领域的历史再现性、知识性、信息性、政治性、文化性、社会性、教育性、价值性等特征日益突出,成为全球各国在大数据时代信息资源管理的重要组成部分。因此,基于“档案”和“生物信息”属性的交叉,可以将生物信息档案定义为“集体或个人在社会活动中直接形成的对国家和社会有保存价值的并具有历史查考凭证作用的生物信息原始记录”。

  生物信息资源发展趋势及管理现状

  从生物信息资源管理的发展历史看,国外起步早于我国的发展。1980年,欧洲分子生物学实验室创建了世界首个核酸序列数据库(Nucleotide Sequence Data Library);1982年,美国洛斯阿拉莫斯国家实验室创建了GenBank;1986年,日本国家遗传学研究所创建了属于日本的核酸序列库(DNA Data Bank of Japan)。2005年,三大数据中心正式合作组成“国际核酸序列数据库联盟”(International Nucleotide Sequence Database Collaboration,INSDC),该联盟是国际上公共领域数据共享方面最著名的组织之一,其成员每天进行数据交换,定期讨论有关建立和维护序列存档的问题,并制定了一系列统一的标准和政策。INSDC在国际生命与健康大数据收集上有着巨大的影响力。

  1999年,我国加入“人类基因组计划”(1990—2003年),在过去20余年里,虽实施过一些大型基因组学研究项目,但由于国际几大数据中心的领导地位和影响力,导致我国基因数据流失严重。同时,基因组学大数据管理共享机制不健全也带来了“数据孤岛”与“数据主权”的问题。2019年,国家生物信息中心的建立,除了解决上述问题,还肩负着完善建立中国人群基因组遗传变异图谱、形成中国人群精准医学信息库等重要使命,因此在数据管理政策上较国外更为严格。

  然而,我国生物信息资源管理目前面临诸多挑战,尤其是在新时代背景下,健康中国、数字中国、生物多样性保护等热点领域的发展离不开生物信息数据支撑,而新型冠状病毒感染疫情等影响巨大的公共卫生事件,也对生物信息资源管理提出了更高的要求,生物信息安全面临严峻考验。例如,2018年10月,科技部首次公布的人类遗传资源行政处罚信息中,就出现了国内企业依托网络途径进行生物信息非法跨国流通的现象(见国科罚〔2015〕2号文件)。此外,医疗卫生行业产生的生物信息数据量庞大、信息敏感,且对国民健康管理方面的研究有重大的意义,是生物信息资源管理的重要研究领域,以精准医疗为代表的新兴医学模式更是以生物信息分析为基础条件,生物信息在医疗卫生信息资源管理中的地位越来越突出。

  因此,考虑到生物信息资源的特征和对国家的重要意义,同时基于档案行业在国家信息资源管理工作中的专业性和权威性,从档案工作的角度管理利用生物信息是依法合规管理国家重要信息资源的保障,也是为我国生物信息安全筑牢防线的一个重要保障。

  我国生物信息档案种类

  生物信息学发展的初衷是生命科学研究,所以绝大多数生物信息档案的来源是科技活动。随着生物信息在医学、法医学、生态学等领域的应用,越来越多的专业档案工作包含了对生物信息的专门管理。

  1.生命科学研究中的生物信息档案

  生命科学研究中产生的具有查考利用价值,并已经过审核存入数据库(“归档库”)的生物信息,是生物信息档案的主要组成部分。虽然科研项目产生的科技档案有专门的归档管理规则,但生物信息数据由于其庞大的数据量和独特的数据形式,如测序数据、序列组装信息和功能注释等原始记录数据一般均无法直接归档,如果科技活动中没有明确生物信息档案的归档方式,科研工作者需要自己为研究的原始数据选择一个“归档库”。由于国际几大数据中心的领导地位,主流期刊要求论文作者将数据递交到几大数据库的规定,以及国内管理较为分散等原因,国内生命科学研究生物信息档案原始数据流失比较明显。因此,有必要从档案管理的角度,思考我国科技活动生物信息的强制定向保存和依规审核开放,借助档案行业长期积累的信息资源管理经验,促进科学数据开放共享,保障科学数据安全可控,支撑国家科技创新和经济社会发展。

  2.医疗行业中的生物信息档案

  病历档案是我国基本专业档案之一,也是一类数量庞大、信息敏感、建档和使用过程比较特殊的重要民生档案。病历档案的内容也随着医疗水平的发展而不断丰富,尤其是现阶段生物信息技术快速发展,特别是人类基因组计划的完成和后基因组计划的实施,都注定生物信息数据将对人类的健康事业产生革命性的深远影响。一方面,生物信息数据对探索发病机理及疾病易感性有重要的意义。与基因相关的所有疾病,都离不开对生物信息数据的研究,换言之,生物信息数据是基因相关疾病诊断的原始依据。另一方面,一些病原生物的基因测序工作在研究致病分子机理,设计诊断、预防和治疗的新方法、新途径等开辟了无限的可能性。例如,在新型冠状病毒流行初期,我国科学家团队在世界范围内首先完成新冠病毒基因测序并公布测序结果,检测出的新型SARS样冠状病毒全基因组序列被首先上传到美国NCBI数据库中(GenBank:MN908947),为后期疾病核酸诊断和疫苗研制提供了原始依据。

  因此,如果生物信息可作为诊断治疗依据的一部分,其本身也应得到妥当地审核和储存。并且,随着电子病历档案管理体系的完善和医疗大数据分析技术的发展,医疗领域产生的生物信息档案将和病历档案一样,成为医院临床、教学、研究工作的宝贵资料,成为人类同疾病作斗争的原始记录。

  3.司法鉴定中的生物信息档案

  在司法鉴定工作中,生物信息技术的应用也相应产生了生物信息数据证据,如基于GEO数据库芯片筛选心肌梗死的关键基因,基于土壤宏基因组分析的法医学个体来源地理位置推断等组学数据法医证据的探索研究,又如最为常见的亲子鉴定,其检测过程中最直接的凭证就是核酸序列生物信息。因此司法鉴定中的生物信息档案有着最直观最本质的凭证作用。同时,随着《中华人民共和国个人信息保护法》的实施,对个人生物识别信息的保护和管理应当更加规范化,对个人产生的生物识别信息建立档案,就包括对其生物信息的建档,无疑对个人信息保护有积极意义。

  构建我国生物信息档案管理体系的设想

  2024年3月1日起实施的《中华人民共和国档案法实施条例》第五章对促进档案信息化建设、全面提升档案信息化水平做出明确要求。在新一轮的信息革命中,生物信息是大国和创新企业的战略选择,做好生物信息档案管理,是档案工作信息化发展的大势所趋。

  因此,基于以上对国内外生物信息资源管理的现状,提出以下几点对生物信息档案的思考:

  1.制定生物信息档案管理政策

  在宏观层面上,需要建立针对生物信息档案管理总体框架,生物信息档案是专业档案,尤其体现在其对开放共享有很大需求,需要在国家层面逐步完善关于生物信息档案共享与管理政策。在微观层面上,需要结合数据中心平台的具体数据管理政策,找准档案归档的落脚点,通过数据中心等微观管理主体制定生物信息档案的管理政策,加强规范档案的开放获取服务,促进档案的最大化利用。

  2.强化生物信息数据归档意识

  在对生物信息档案归档作出明确要求的基础上,需要强化归档意识,并加强宣传。结合我国国家生物信息中心平台的数据管理政策,从生物信息档案的产生方强化数据归档的要求,宣传数据归档的重要意义,也可以通过出台政策激励工作人员汇交数据形成良好的归档生态,促进提交、储存、使用全流程的周期管理。

  3.细化数据平台各部门档案管理分工

  生物信息资源管理涉及众多学科,专业领域涵盖了生命科学、生物信息学、计算机科学、信息资源管理学等多个方面,这些人员擅长的领域包括元数据和信息管理、软件开发、数据归档、基因组学研究等,产生生物信息档案的行业也拓展到医疗、科研、司法等重要领域。鉴于此,生物信息档案的管理需要细化分工,保证不同类型人才的专业分工与沟通协调。

  4.加强问题导向的专题生物信息档案库建设

  产生生物信息档案的来源较复杂,不同领域对生物信息档案的储存和利用需求存在较大差异,因此要以问题为导向建立专题生物信息档案库,如前文所提及的人类遗传资源组学原始数据归档库,专用于人类遗传资源相关组学数据的归档,生物医疗图像归档库用于存档生物医学成像数据和相关临床数据。同时,加强问题导向的生物信息资源整合集成也是目前中国基因组学领域科学数据资源管理的紧迫需求。

  5.强化开放审核,保护我国生物信息数据资源安全

  生物信息档案对开放审核有特殊的要求,前文已经介绍了我国的生物信息资源既有“走不出去”的难题,又有“留不下来”的风险。强化开放审核管理,让该共享的资源及时共享,同时让该保密的资源受到严格控制,在保证档案信息安全的前提下,提高资源影响力,充分发挥档案价值。

  作者单位:国家档案局科研所

  责任编辑:周拯民