> 自媒体 > (AI)人工智能 > 17 万本盗版书,是「ChatGPT 们」变聪明的秘密
17 万本盗版书,是「ChatGPT 们」变聪明的秘密
来源:爱范儿
2023-08-26 14:16:09
401
管理

▲ 演员、作者 Sarah Silverman 和她的自传,图片来自 Vulture

证据?

在 OpenAI 案件里,原告们输入提示词后,ChatGPT 能够总结出他们的书的内容。

在 Meta 案件中,Meta 大模型 LLaMA 的论文里就写着,它训练数据包括一个由 EleutherAI 整理的、名为「ThePile」的素材。

「ThePile」中又包含了一个名为「Books3」的数据集,它的内容正是线上盗版图书资源库 Bibliotik 的数据。

由此可见,当时原告提出的证据还相对「间接」。

直到现在,作家和程序员 Alex Reisner 正式揭露,Meta 的大模型背后到底都盗用了哪些作家的图书。

让人意外的是,这些「证据」其实一直都放在明面,但却一直没有被揭开,这是为什么?

甚至,侵权素材的制造者,还一直坚持说这是一件「正义」的事。

17 万本盗版图书

▲ 图片来自 Unsplash

没想到的是,提取出来的信息里,并没有任何带有「书名」「作者名」等标签的数据,一切都只是「文本」。

于是,Reisner 又另外写了一个程序去提取数据中的 ISBN 编号(国际标准书号),并将这些数据和其他线上图书数据库进行比对,以辨别出「Books3」中被收录的具体书籍。

最后,这一步找出了 19 万个 ISBN 编码,识别出 17 万个对应书名(实际书数量可能会略少于这个数,因为其中存在同一本书的不同版本),另外 2 万个编码则无法找到对应书名。

这些书里,大约有 1/3 是虚构作品,2/3 是非虚构作品,来自于大大小小不同的出版社。

是的,在这些被识别出的书里,也包括了文章开篇提到对 OpenAI 和 Meta 提出诉讼的三位作家的书籍,所以可以说是 Meta 的 LLaMA 以盗版书作为训练素材非常直接的证据的了。

此外,我们还能在其中看到《我的天才女友》作者埃莱娜·费兰特、《女仆的故事》作者玛格丽特·阿特伍德、史蒂芬 · 金、村上春树、著名饮食类作家迈克尔·波伦、惊悚小说作家詹姆斯·帕特森等人的众多作品。

▲ 玛格丽特·阿特伍德等八千多名作家也写了联名信,要求 AI 公司需要获得作家授权才可将书籍用作训练材料,图片来自《独立报》

除了著名作家的书籍以外,Reisner 还在「Books3」里找到了「科学教」创始人罗恩·哈伯德的 102 本低俗小说、90 本信奉「年轻地球创造论」的牧师约翰·F·迈克阿瑟的书,以及「外星人创造论」支持者埃里希·冯·丹尼肯的多部作品。

Reisner 在《大西洋月刊》的文章中指出,虽然「Books3」数据集在 AI 社区以外认知度不高,但在圈里挺受欢迎的,「可以下载,但要找到有点难度,想要浏览和分析也同样具有挑战性」。

像 Reisner 这样大费周章写程序来分析比对,并且还精心撰文在大众媒体上发布,还是首次。

与此同时,AI 圈对「Books3」也有心照不宣的维护,因为,以「Books3」创造者的话来说 —— 它是确保生成式 AI 发展不会被大公司垄断的重要资源。

「盗火者」还是「盗贼」?

▲图片来自《大西洋月刊》

如果我们不需要像 Books3 这样的东西的确会更好。

但情况是,如果没有 Books3,只有 OpenAI 可以做到他们正在做的事情。

「Books3」的创造者,独立开发者 Shawn Presser 对 Reisner 说道。

Presser 一开始做 Books3,就是为了给所有开发者「OpenAI 级别的训练数据」。

2020 年,Presser 下载了一份 Bibliotik 的副本,再改写了黑客 Aaron Swartz 十多年前写下的程序,将所有 ePub 格式的图书转换成纯文本 —— 一种更合适大模型使用的格式。

至于数据集中部分书的版权信息出现缺失,Presser 称那是转换造成的意外结果,并非自己刻意为之。

而「Books3」这个名字,也是呼应了 OpenAI 之前提及的「Books1」和「Books2」。

在 2020 年的时候,OpenAI 的论文指出,GPT-3 的训练数据中包括两个基于互联网的书籍数据合集。

人们从其体积推测,OpenAI 的「Books1」数据来自于「古登堡计划(Project Gutenberg)」—— 专门收集版权已过期的图书资源的项目。

「Books2」的内容是什么则一直无人知晓,有人从其体积猜是类似 Bibliotik 或 Libgen 的线上盗版图书库的数据。

当然,除了书籍的数据外,GPT-3 当时还用了其他数据,如维基百科和其他从网络上抓取下来的文字信息。

这也是为什么 EleutherAI 整合的「ThePile」里也同样包含了大量其他数据,如维基百科、YouTube 视频的字幕、欧洲议会的文件和速记等等。

即便如此,相比之下,书籍的高质量文本仍然显得很重要。

Meta 曾表示,最开始的 LlaMA-65B 大模型表现没有其他好,主要是因为它「所使用的书籍以及学术论文数量有限」。

MIT 和康奈尔大学合作的论文也指出,书籍在大模型训练数据中「对下游表现有最强正面效果的」。

所以我们会在 Meta 后来推出的 LlaMA 2 训练数据中看到「ThePile」和其中的「Books3」。

▲ 图片来自 CNN

这也是为什么,当 Books3 最近因丹麦反盗版组织 Rights Alliance 投诉侵权而被下架时,Presser 感到愤慨不平。

在他看来,所有牟利的大公司在私底下都把侵权内容拿来训练自己的大模型,但又因为他们不公开其训练数据,因此没人能告得了他们。

而 Books3 被下架,却正是因为他希望让大模型更开放和有更高透明度而主动公开数据来源。

Presser 强调,我们不能让财大气粗的大公司垄断这项在重塑我们文化的重要技术,而是要让所有人都有资源去建立自己的大模型:

我的目标要让所有人都能(建造这些大模型)。

除非书籍的作者有方法能把 ChatGPT 拉下线,或者告到他们关门,否则让你和我都能建造自己的 ChatGPT 是非常必要的。

正如在 90 年代的时候,去保证任何人都能设立自己的网站一样重要。

至于把 ChatGPT 告到下线,也不是完全没有可能。

人人都在告 AI 巨头

▲ OpenAI 不再「Open」也不透明,图片来自 Politico

明星作家发起的官司也许引来更多关注,但拥有把 ChatGPT 告到「重造」的潜力的,却是传统新闻媒体。

上周,NPR 报道援引知情人士消息称《纽约时报》正在考虑起诉 OpenAI。

在过去几周里,《纽约时报》都在和 OpenAI 就授权协议谈判。然而,谈判进展似乎不太顺利,以至于《纽约时报》都开始考虑就侵权告 OpenAI 了。

报道称,联邦版权法规定,违法者每项「蓄意」侵权行为最高可罚 15 万美元,再结合《纽约时报》的文章数量,这个金额叠加起来「对于一家公司来说可能是致命的」。

除此以外,如果法官判定 OpenAI 的确非法拿了《纽约时报》的文章来训练大模型,法院也可以命令 OpenAI 销毁 ChatGPT 的数据集,强制它仅用已获得授权的作品来重新训练和创造 ChatGPT。

▲ 图片来自 BrookField

无论是原告是《纽约时报》还是书籍作家,这些官司(或潜在官司)能否胜诉,关键都在于 AI 巨头们是否能把这些信息的使用说成「合理使用」 —— 即在特定情况下,可允许不经许可去使用特定作品,譬如教学、评论、研究和报道等。

支持「合理使用」的人有两个论点:

生成式 AI 并不会重现它们用于训练的书籍本身,而是创造新内容;那些新内容并不会损害原本作品的市场。

纽约大学科技法律与政策诊所的负责人 Jason Schultz 称,在图书被盗用方面,这个论据还挺有力的。

但《纽约时报》的律师则坚持,OpenAI 对报纸文章的使用并不合乎「合理使用」。

假如用户能通过 AI 聊天机器人,获取文章中提及的新闻事件描述,用户可能就不会再去找文章阅读了,因此有可能会成为新闻文章的替代品,影响了原有市场。

法律博主樊百乐指出,知识产权法并非一成不变,但其核心却很坚定 —— 繁荣创作市场。

如果连估值数百亿美元的 AI 公司,都可以不付一分版权费,免费把作家耗费数年心血创作的作品拿去牟利,甚至盗用这些书去训练出意图替代作家的工具,这对创作者而言无疑是致命打击。

Presser 谈论到的「数据不公平」问题,也不应是侵犯创作者权利的借口。

版权问题终究会是决定 AI 能走多远的其中一个关键因素。

范德堡大学知识产权项目联席主任 Daniel Gervais 认为:

版权法是一把悬在 AI 公司头上的利剑,除非它们想出如何协商解决方案,否则这把剑未来几年都会悬在它们头上。

这一切只是新阶段的开始。

✍ ✍ ✍

最后,我们整理了部分仍在进行中的 AI 公司侵权诉讼,以供参考

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
研究发现:ChatGPT回答编程问题的错误率超过50%
IT之家 8 月 8 日消息,美国普渡大学的研究发现,OpenAI 开发的人工智能..
金钟:OpenAI大内斗,对中国AI大模型发展有哪些启示?..
【文/观察者网专栏作者 金钟】 相信大家这几天已经吃饱了关于美国科技新..
揭秘!境外诈骗电话是如何变成官方客服号码的
近期,四川攀枝花市警方破获一起跨境电信网络诈骗案,该案犯罪团伙以“冒..
GPT-3+DALL·E,60秒内搞定游戏设定和原型动画!网友:这游戏想玩..
明敏 发自 凹非寺量子位 | 公众号 QbitAI如果不说,你能看出来下面这幅画..
男子在线裸聊,1万余元险入“虎口”
近日麻章谢先生上网聊天时被对方录屏要挟幸亏麻章警方及时预警为其追回1..
ChatGPT上线DALL・E 3测试版,可根据文字生成高质量图片..
DoNews10月19日消息,OpenAI 旗下 DALL-E 模型可以根据用户输入的文字描..
GPT-4来了!支持以图生文 OpenAI付款系统被挤爆 首批用户连夜写测评..
《科创板日报》3月15日讯(记者 张洋洋)“GPT-4,起飞!”今日凌晨1点,..
吊打Midjourney!OpenAI秘密内测新平台
图源:网络但显然,OpenAI已经找到了解决这一问题的方法,在MattVidPro所..
怎样和刚认识的女生微信聊天?三技巧聊出感情
你每天都会遇见形形色色的人,聊天是必须要开展的活动,而现在随着网络技..
关于作者
黑暗森林(普通会员)
文章
599
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40369 企业收录2981 印章生成216707 电子证书945 电子名片57 自媒体34015

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索