发布时间:2025-03-26 10:40:32被阅览数:121 次信息来源:《中国档案》
文/杨冬权
2025年春节最响的一颗炮仗,无疑是深度求索(DeepSeek)大语言模型的问世。它的问世,很快会带来全社会的广泛应用,因为它的水平超过95%以上的人类。我看到视频上有人让它用《孙子兵法》的结构和文风,改写一篇商业方面的《孙子兵法》,结果,只用了一分多钟,它就写了出来,水平还很高。这么又快又好的东西,谁会不用呢?接下来,档案人不但会广泛面对它的应用成果,而且也应该广泛应用它的技术和成果于自己的领域。我的思索,也是在这两个方面。
对“智机文件”的档案思索
2022年11月30日,美国聊天机器人(ChatGPT)大语言模型横空出世,把人类的信息时代,由“检索时代”带进了“搜索+生成”的高级时代,也把人工智能从“弱人工智能”推进到“生成式人工智能”的更高阶段。从此,人工智能系统可以自动生成各种文档了。它不但能生成文字,而且能生成图片、声音、影像视频、图表以及它们的混合体。很快,从2023年3月开始,中国也紧跟着发布了“文心一言”等不少跨模态大语言模型,它们也都能生成这些东西。
为了省字省时省空间,我愿把这些生成式人工智能系统,像有人把智能驾驶简称为“智驾”那样,统称为“智机”,即具有智能或智慧的机器;把它们所生成的各种文档,统称为“智机文件”,就像以前电子计算机和它打出的文档,被称为“电脑”和“电子文件”一样。当然,还没有人这样命名它们,我想试着来命名,不知会否获得认可。
当我开始看到这些文档时,作为档案人,我的第一感觉是:它们算档案吗?它们和由人制作的档案怎么区分、怎么辨别呢?
它们需要归档吗?这一年多以来,由于它们还不普遍,应用得还不广泛,所以,我也没有认真地、深度地思索它。但现在,“第一炮”来了!它的先进性能和免费使用,将让它成为生活中的“水和电”,这也是其创始人梁文峰的理想。接下来,它会被人们广泛使用,会被亿万人天天用来生成各种文档:机关团体的公文、领导讲话、财务分析报告、市场分析报告、产品分析报告、产品创意、设计图、医案、法律文书、诗歌、小说、电影电视脚本、视频、图片、图表等。我们拒绝不了它,我们的肉眼也辨别不了它。这时候,我们就要认真地加以思索了。
思索一:一种新类别的档案来了吗?
在2022年10月美国聊天机器人诞生前,人类的档案,就作者来划分,只有一种类别,即由人手工制作的档案,或以人为主、以机器为辅制作的档案。比如,在甲骨、石头、砖头、青铜器上刻划的档案,在竹简、木牍、羊皮、树皮、陶器、丝布上书写或画出的档案,是人手工制作的。照片档案是人用照相机制作的,录音档案是人用录音机制作的,录像档案是人用录像机制作的,电子档案是人用电脑制作的。它们制作的主体都是人,机器只是辅助的工具。但聊天机器人这一类的生成式人工智能,或者叫大语言模型,或者叫“智机”,能够根据人的指令,生成文字、图片、声音、影像视频等,其质量和水平不但不逊于人类,而且还高于大多数人类。因此,从此以后的档案,就不完全是由人类制作的了,而且还有主要由机器制作的。这种机器,是智能化的,且有相当于甚至超越人类的智能水平。也就是说,当今人类的档案,从制作者来说,就有了两大类:第一类是人工档案,即由人制作的档案;第二类是“智机”档案,即由生成式人工智能系统、大语言模型等智能类机器制作的档案。这是人类几千年档案史上的一个新类别,一个新品种,一种新现象,一个新趋势。
这种新类别的档案,在美国,从2022年11月开始有,在中国,则从2023年3月开始有。到2024年年底,中国已备案和上线的生成式人工智能大模型已有200多个,注册用户已有7亿以上,所生成的各种“智机文件”,至少也有百亿份以上。只是直到今天,还没有人把它们称之为“档案”而已。
思索二:“智机文件”算不算档案?
“智机”生成的文档,我们可以按照过去把所有电子计算机形成的东西都叫作“电子文件”的先例,姑且也称它们为“智机文件”。
“智机文件”算不算档案呢?对此有三种看法:第一种,认为它不是由人形成的,不应该算作档案;第二种,认为它是按照人的指令形成的,应该算是档案;第三种,认为要具体分析它形成后有没有被利用、有没有利用价值、有没有被归档,应用了的、有利用价值并被归档的才算档案,否则不算。
我是持第二种看法的,认为它应该算档案。因为首先,它是按照人的指令而形成的,有人的参与,是人的想法的结果。以深度求索大模型为例:你让它生成东西,首先要给它一个主题,然后,为了生成得更好,还要提一系列要求,如文体、字数、要素等。其次,有的生成尽管未被应用,但也应该被看作某种证据,甚至肯定会成为证据。比如,有个人让机器生成制造原子弹、毒气等杀人武器的方法、步骤等。这些东西生成后,即使未被应用,没有实际地去制造,但安全部门获知后,也会作为证据而对这个人采取措施,加以防范。这个人出事后,这些“智机文件”也会被作为证据而举证。因为这些“智机文件”,完全具有档案的根本作用、本质作用、第一作用—凭证作用,可以作为这个人有凶杀意识或凶杀企图的凭证,作为举证他犯罪的证据。再比如,我2024年在北京参加一个智慧档案产业园开工仪式时,看到一个大语言模型,我当场试验,让它给我起草一份在智慧档案产业园开工仪式上的致辞,没想到,几秒钟后,它就起草出来了。尽管我没有采用这个机器生成的讲话稿,但这份“智机文件”,是按照我的指令生成的;它记录了我曾有过让大模型起草讲话稿这个行为—这是我一生中第一次使用“智机”;它记录了这个大语言模型在这个时代的生成水平;它记录了这家企业在这时候已经使用了“智机”,或第一台“智机”。总之,它记录了我的生活轨迹,它反映了我的一些想法和做法,它反映了时代的印记。这篇文章在写作过程中,我又看到两条新闻,一条是杭州电视台已用数智人播音员播放“杭州新闻联播”了,这样的重要新闻,怎能不算新闻档案呢?一条是深圳一些政务部门已率先接入DeepSeek,用于公文写作、文件起草等,这些政府部门用“智机”生成的文件或公文,你能不算它是档案吗?因此,我初步认为:“智机文件”是人的活动的一种记录和反映,它符合档案的根概念—记录,具有档案的原功能—凭证,应该属于档案的范畴,应该被看作电子档案,应该作为电子档案中的一种新类别—智机档案。
思索三:档案的概念暂时要不要做修改?
过去,人们通常把档案定义为:法人和自然人在其各种活动中直接形成的各类有保存价值的原始记录。新修订《档案法》中,把该法所称档案定义为:“过去和现在的机关、团体、企业事业单位和其他组织以及个人从事经济、政治、文化、社会、生态文明、军事、外事、科技等方面活动直接形成的对国家和社会具有保存价值的各种文字、图表、声像等不同形式的历史记录。”它所指的档案形成者,也包括了法人(即机关、团体、企业事业单位和其他组织)和自然人(即个人)。那么,“智机”这种数智人所生成的东西、所制作的文档,超出了法人和自然人形成的东西了吗?有人可能说,已超出了,因为“智机”这种数智人,既不是法人,又不是自然人。但我要说:智机所生成的东西,都是根据指令者即人的指令而生成的,没有指令,它就不会生成。因此,“智机文件”实际上都是指令者的,我们可以把它看作是由指令者形成的。指令者是法人,则它属于法人档案;指令者是个人,则它属于个人档案。我们可以把它当作电子档案看待,是按指令者的指令而形成的电子档案。因此,现行的档案概念,可以暂时不做修改,这样也能说得通,在实际工作中也好操作,也能行得通。“让子弹飞一会儿”,等将来出现新变化或新问题时再说。
思索四:“智机文件”要不要归档?现行的归档范围要不要包括它?
上文我已经说了,“智机文件”符合档案的根概念,具有档案的原功能,应该看作是档案,应该被当作电子档案来对待。因此,我认为:“智机文件”应该像电子档案一样地归档,而且还应该像我过去主张的对电子档案那样全部归档。即:凡是文件形成者自身形成的,和其它单位形成但同文件形成者有关的,全部归档。
第一,从档案的概念、内涵、本质等来说,它们符合档案的概念,具有档案的功能,能起到档案记录历史、保存记忆、传承文明、宣播文化的作用,它不但可以反映法人和自然人的历史,还可以反映社会的印记、科技的水平、时代的风尚等。第二,从成本来说,它们都是电子的,所占存储空间不大,所费管理成本很低—低于鉴别它们要不要存档所花的成本。第三,从作用来说,把它们归档保存,今后会像电子档案一样有用和被人利用,这是必然的,毋庸置疑。特别是有一些标志性的“智机文件”,还应成为国家、单位和个人的重点档案。比如,我国第一个“智机文件”,即由“文心一言”“深度求索”以及今后其他具有创新性、世界性意义的大语言模型所生成的第一份文本、第一张图片、第一段声音、第一段视频,在我国的信息发展史上、科技史上,都有着里程碑的意义。它们就像过去的我国第一张照片、第一部电影、第一个电视节目等等一样,不但应该成为大模型制造企业的重要档案,而且应该成为我们国家的重要档案。第四,从效果来说,不保存它们,则会让这个时代的很多东西在未来缺失,不利于历史的记录,不利于文化的保存,不利于记忆的完整。
思索五,要不要辨别是不是“智机文件”?
我认为:要!毕竟“智机文件”和人工创作出来的东西是不一样的,价值上不可同日而语,应该加以辨别。方法是:国家提倡甚或规定“智机文件”必须标明是生成的,以便于人们分辨它,知道它是生成的,好鉴定它的价值。就像多年来在电视纪录片中用影视剧的画面,有关部门要求必须标明画面是影视剧资料一样。我最近在网上就看到一段生成的视频,自始至终,都在右下角标有“纳米Ai生成”几个字。我认为,凡是“智机”生成的文档,都应要求明确标注。
思索六,“智机文件”归档后,如何著录?
我认为,可根据文件的具体形式去著录。文本类,可按照电子文件去著录它的作者(指令人或发布者)、内容主题、文种、时间等。图片类,就按照照片去著录它的作者(生成者)、主题或题目、时间等。视频类,可按照电视剧、电影去著录它的作者(指令者、生成者、发布者等)、主题和题目、时间等。声音类,可按照录音档案著录其必要的要素。刚开始,有这些粗略的著录也就可以了,等将来再根据情况,逐步制定详细的规则。
对人工智能生成技术在档案工作中应用的思索
2019年以来,我一直在提倡智慧档案,提倡“人工智能+档案”,提倡新质档案。但是,迄今几年过去了,全国档案界响应者不多,应用者寥寥。为什么呢?主要原因就在于,大家都认为人工智能生成技术太高深,对人才的要求太高,这样的人才太少,研制和使用它代价太大、成本太高。因而大家都望而却步,止于观望。但是,深度求索“智机”诞生后,明白地告诉世人:人工智能生成技术或大语言模型技术,也并不是高不可攀的。深度求索大模型的主持人梁文峰,并不是专业搞大模型的,他的主业是量化投资,从2023年才宣布成立大模型公司深度求索,正式进军生成式人工智能领域。他的团队人数并不多,只有130多人,员工基本没有出洋深造过,都是国内大学培养出来的,都很年轻,缺少这方面的工作经验,平均年龄只有不到30岁。所用的资金并不多,只有不到600万美元。所花时间也不长,从项目开工到发布,仅一年多时间。因此,它可以告诉档案服务企业:只要愿意做,很多档案服务企业都可以免费利用它的开源技术,从国内高校中招一些梁文峰所说的“热爱者”和有志者、奋斗者,对它进行“蒸馏”,用档案数据去喂养模型,从而打造出基于档案数据、适合于档案管理工作的档案专业大模型、智能档案人、智慧档案馆(室)、新质档案馆(室)来。
思索一,档案工作是追求真实的,而“智机”也就是生成式人工智能的很多功能是造假的。那么,在档案工作中是否要应用它?
我的思考是:要用!必须要用!
第一,从档案的形成角度看,必须用。有的“智机”有着声音转文字、一种文字翻译成另一种文字的功能。因此,它可以把录音和录像档案中的声音,转换成文字档案;把汉文档案翻译成中国其他少数民族文字和外国文字的档案,或者把少数民族文字和外国文字的档案,翻译成汉文档案。特别是,它还能把计算机不能识别处理的非电子档案,识别转化成为计算机可以识别处理的电子档案。它们的翻译和识别转换,都基本准确,大体真实,从而形成内容真实的另一种形式的新档案。这会让档案馆(室)的档案更加丰富。
第二,从档案的管理角度看,必须用。有的“智机”能对档案安全做出预警、预报,对档案数量增长趋势、档案利用趋势等,自动作出分析和预告,能对档案的位置、档案温湿度等实行监控和显示,对档案进行自动调取,对档案柜架进行自动开闭,对每天档案的利用人数、卷(件)数及累计利用人数和卷(件)数等进行动态显示。这些都有利于档案的安全和科学管理。
第三,从档案的利用角度看,必须用。确实,档案工作是求真的,而“智机”即生成式人工智能等,却会生成许多虚假的东西。比如,让照片动起来,让照片中的人模仿他的声音讲任何一段话,把照片中的人物配上任何一个场景,把真实的照片合成假的影像或视频,用一个人的模拟声音去讲任何一段话等。今后,每个人都可以用“智机”生成出一个假的他来,生成出一个数智的他来。不少人曾担心,将来档案中会有很多假录音、假影像、假图片、假文字。因为“智机”能根据你的一分钟真声音,生成任何一段你的讲话录音来;可以根据你的一篇手写字,模拟出你的任何内容的手迹来;根据你的一段影像视频,生成出很多你的影像视频来。这些文生图、文生视频、图生视频、声音生声音等技术,正是让档案“活起来”“响起来”“火起来”的有力手段和有利工具。未来,我们的档案展览、档案编研、档案开发,要想更生动、更形象、更让人喜闻乐见,更吸引人,就必须采用这些新技术、新手段。否则,就会与时代脱节,就会落在时代的后面,就会失去受众,失去利用者,让档案利用效益打折扣,让档案作用打折扣。特别是“智机”都可以对已经转化为数据的档案,进行智慧性开发,可以对文字、声音、图片、影像等不同模态的档案,进行跨模态搜索,并让所有档案数据都产生关联,从而生成许多新的知识、新的信息来,从而最大限度地发挥档案的效益、功能和作用。因此,从档案的开发利用角度看,我们必须要用“智机”,要用生成式人工智能或大语言模型的技术,甚至是现成的产品。
第四,从档案的治理角度看,必须用。档案业务指导、法制、宣传、教育、科研等行政管理工作,都可以充分应用“智机”来进行。用它,事半功倍;不用它,会事倍功半。而且不久,各行各业的行政管理部门都会用,你不用,就落伍,就格格不入,就会被边缘化。
思索二,档案工作能不能用“智机”?它在档案工作中有没有应用场景或用武之地?它会不会成为摆设、浪费人财物?
我的思考是:能用!完全能用!它的应用场景多得很!用武之地大得很!用它,不会成为摆设,不会造成浪费!
对档案馆(室)来说,“智机”可以帮助你自动收集档案、管理档案、统计档案、监控档案、调取档案、扫描识别转换档案、搜索(它比过去的检索更加广泛和全面)档案、编研档案、展览档案、深度加工开发档案、翻译档案。仅在智慧档案方面,它就可以把印刷体和手写体的字,以及录音和录像档案当中的声音,识别转化成电脑可以处理的数据;可以用文字找到照片、找到录音、找到录像;可以识别出照片和录像中的人物姓名、地址等,并转换成电脑可处理的数据;可让所有档案数据全部产生关联,并生成相应的新信息、新知识;可以在几分钟内完成一个档案的开发,如展览、汇编档案、编资政参考、编年鉴、编大事记等;可以做出相关预警或提示等;可以自动划分档案可否开放;可以通过一个词的语义,搜索出档案中包括同这一词相关联的所有内容。它既能代替或加强档案人的手,又能代替或加强档案人的脑,把档案人从大量日常琐碎又繁重的工作中解放出来,把档案人变成拥有并活用全部档案中知识和信息的智慧人,变成社会上最聪明的人,变成高级参谋和助手,变成各方面都离不开的人,变成受人尊敬的智者。它也能把档案馆(室),从过去的数字档案馆(室)、纸质档案馆(室),提升为最先进的智慧档案馆(室),从旧质档案馆(室),提升为领先世界的新质档案馆(室)。
对档案局来说,档案人可以利用“智机”进行远程业务指导、法律咨询,开展宣传和培训,做科研助手等。
对档案学校来说,“智机”可以辅助进行教学与科研,用来帮助档案局、档案馆、档案室解决各方面的问题。
对档案服务企业来说,可以对以上各类档案部门开展各种服务,从而发展自己的企业,提高档案工作的水平。特别是对档案服务企业来说,利用“智机”、利用生成式人工智能技术来建设智慧档案馆(室)、新质档案馆(室),是下一个风口。谁站上这个风口,谁就能飞起来;谁搭上这趟时代快车,谁就能快速发展;谁不利用它,谁就不可能有好的前景。
思索三,档案工作用得起用不起“智机”?
我的思考是:用得起!完全用得起!过去大家都以为“智机”成本很高,档案部门用不起,特别是用它来建智慧档案馆(室)、新质档案馆(室),可能要比建数字档案馆(室)多花很多钱,但事实上却不是。深度求索大模型的开发成本,是国外同类产品成本的1/20甚至1/30,整个开发成本才500多万美元,不到4000万元人民币。2月7日,我在网上又看到一条最新的消息,美国华人李飞飞团队,居然用50美元,注意!是50美元,300多元人民币,就“蒸馏”出一个很不错的大模型来了。由此可见,未来“智机”可能也是“白菜价”了,比手机还要便宜许多,哪个档案馆(室)都能用得起。而且,本来就并不贵的深度求索模型,现在又免费开源了,各个档案服务企业,都可以借用它的逻辑框架和技术路线,对它进行“蒸馏”,套用它的模型,在它的基础上,喂养档案数据,建立档案的专用模型,为档案馆(室)建立智慧档案平台。如果是每个档案馆(室)各自单独建系统,其总费用也不会高于建数字档案馆(室),很可能用建数字档案馆(室)的一半甚至1/3的钱,就能够建起一个水平更加先进的智慧档案馆(室)来。而且,依现有的算力、算法和数据,某些企业还有能力和意愿,建覆盖全县、全市、全省甚至是全国的集中式智慧档案大平台,那就更可为国家省下几十倍、几百倍、几千倍的钱了。也就是在县或市、省、中央,只建一个集中式的智慧档案大平台,其余各个档案馆(室),都不用单独建数据库,不用购买硬件设备,而只负责识别和转换自己的档案数据,并把数据上传到大平台上。然后,各个档案馆(室)就可以都分别对档案进行智慧性管理和开发,从而建成智慧档案馆(室)、新质档案馆(室)了。这是我们以前所不可想象的,但技术的进步,已经完全可以做得到。现在,有些省市已经有这样的想法,准备这样做。我很希望下一步能以省为单位,至少也是以地级市或县为单位,建集中式智慧档案大平台。可以说,建集中式智慧档案大平台,是我国智慧档案建设的新方向。我甚至更建议可以向国家发展改革委申请,统一建一个覆盖全国3000多个各级国家综合档案馆和中央各部委档案室的智慧档案大平台,那就可以率先在全世界建成智慧档案或新质档案了,实现档案工作质的飞跃、质的提升,妥妥地成为档案强国了。
思索四,档案中有秘密,用“智机”安不安全呢?
我的思考是:建智慧档案馆(室),同建数字档案馆(室)一样,没有更高的安全要求。它们防止发生失泄密的根本秘诀都是共同的,那就是:凡是涉密的,先不搞!凡搞数据化,凡进数据库的,都不涉密,都不带密级!据估计,涉密档案一般只占档案馆(室)全部档案的10~30%,这些先不搞,并不影响那70~90%档案的智慧管理与利用。这些搞完后,下一步再对涉密的部分进行逐件鉴定,解密后再继续搞。各个档案馆(室)只要把握住“涉密档案都不数据化,都不进数据库”这一条原则,就可以放心地使用“智机”进行智慧档案建设。
思索五:使用“智机”后,档案人会不会无事可干、被“智机”取代?
我的思考是:不会!DeepSeek问世后,有些档案人开始焦虑或担心:档案部门用它后,档案人是否会无事可干而被取代了?我觉得不必焦虑,不必担心!因为第一,“智机”需要根据人的指令才会生成产品,而档案人则是指令者,他根据形势的需要和利用者的需要,而指令“智机”去生成或深化某一主题的内容。第二,“智机”生成的东西,还需要人来审核其是否准确,是否符合需要等,从而决定是否采用它,或在它的基础上再做哪些修改。第三,档案工作中还有一些“智机”所不能取代的工作,需要档案人来干。因此,“智机”取代不了档案人。
以上是我的初步思索。希望能在全国档案界起到“吹哨”“敲钟”和“抛砖引玉”的作用,引来一场关于“智机”即生成式人工智能与档案的大讨论,引来更多这方面的智见与高论,引来档案人对“智机文件”的关注与收集,引来生成式人工智能技术在各类档案部门的大应用,引来全国智慧档案、新质档案的新局面!
作者单位:国家档案局
责任编辑:王辉