澳大利亚国家图书馆捕获大量人工智能生成的内容

发布时间:2024-09-14 19:16:40被阅览数:869 次信息来源：中国档案报　作者：常家源编译

　　澳大利亚国家图书馆（NLA）自20世纪90年代以来，一直在对澳大利亚互联网内容进行存档。起初，只存档精选网站，但自2004年以来，已扩展到收集以“au”为域名的网站年度快照。观察其不同时期的存档内容，最明显的变化是近来捕获的网站充斥着大量人工智能生成的内容。

　　在NLA的在线研究平台Trove上搜索“作为AI语言模型”（“As an AI language model”）和“根据我最近的知识更新”（“as of my last knowledge update”）等词或相关变体，会得到数百条结果。而这两个常用短语都是由ChatGPT生成的，并非人类编写的。除此之外，NLA捕获的还有未经审核的由ChatGPT自动编写的垃圾网站。

　　NLA并未否认目前正在捕获AI生成的内容，其发言人表示，机构职责是全面收集出版物，不需对内容作出任何评判。每半年对澳大利亚网站进行一次数据收集，是遵守法律义务的表现。如果有与版权、隐私或诽谤有关的投诉，将按照规定删除相关内容。

　　同时，捕获海量网页导致存储空间不足也是不可小觑的问题。1995年，NLA仅捕获了5150个网页，2022年则捕获了超过2万亿个，所占用的存储空间是1995年的57.7万多倍。如果存档内容继续以这样的速度增长，NLA可能不得不考虑改变其存档策略以降低成本。

　　原载于《中国档案报》2024年9月12日总第4187期第三版

下一篇：“活化档案资源致力红色领航”——清流县举办和平解放档案文化展　

上一篇：大英博物馆计划5年内完成所有未登记资料数字化

最新推荐

澳大利亚国家图书馆捕获大量人工智能生成的内容