澳大利亚国家图书馆捕获大量人工智能生成的内容

发布时间:2024-09-14 19:16:40被阅览数:194 次信息来源:​中国档案报  作者:常家源 编译

  澳大利亚国家图书馆(NLA)自20世纪90年代以来,一直在对澳大利亚互联网内容进行存档。起初,只存档精选网站,但自2004年以来,已扩展到收集以“au”为域名的网站年度快照。观察其不同时期的存档内容,最明显的变化是近来捕获的网站充斥着大量人工智能生成的内容。

  在NLA的在线研究平台Trove上搜索“作为AI语言模型”(“As an AI language model”)和“根据我最近的知识更新”(“as of my last knowledge update”)等词或相关变体,会得到数百条结果。而这两个常用短语都是由ChatGPT生成的,并非人类编写的。除此之外,NLA捕获的还有未经审核的由ChatGPT自动编写的垃圾网站。

  NLA并未否认目前正在捕获AI生成的内容,其发言人表示,机构职责是全面收集出版物,不需对内容作出任何评判。每半年对澳大利亚网站进行一次数据收集,是遵守法律义务的表现。如果有与版权、隐私或诽谤有关的投诉,将按照规定删除相关内容。

  同时,捕获海量网页导致存储空间不足也是不可小觑的问题。1995年,NLA仅捕获了5150个网页,2022年则捕获了超过2万亿个,所占用的存储空间是1995年的57.7万多倍。如果存档内容继续以这样的速度增长,NLA可能不得不考虑改变其存档策略以降低成本。

  原载于《中国档案报》2024年9月12日  总第4187期  第三版