编辑:编辑部
【新智元导读】最差的人类语料,也要胜过AI生成的文本。随着GPT-4、Stable Diffusion和Midjourney的爆火,越来越多的人开始在工作和生活中引入生成式AI技术。
甚至,有人已经开始尝试用AI生成的数据来训练AI了。难道,这就是传说中的「数据永动机」?
然而,来自牛津、剑桥、帝国理工等机构研究人员发现,如果在训练时大量使用AI内容,会引发模型崩溃(model collapse),造成不可逆的缺陷。
论文地址:https://arxiv.org/abs/2305.17493v2
但现在的问题在于——你以为的「人类数据」,可能并不是「人类」写的。
洛桑联邦理工学院(EPFL)的最新研究称,预估33%-46%的人类数据都是由AI生成的。
2. 函数近似误差(Functional approximation error)
该误差主要源于模型中的函数近似器表达能力不足,或者有时在原始分布支持之外的表达能力太强。
众所周知,神经网络在极限情况下是通用的函数近似器,但实际上这种假设并不总是成立的,特别是神经网络可以在原始分布的支持范围之外引入非零似然。
举个简单例子,如果我们试图用一个高斯分布来拟合两个高斯的混合分布,即使模型具有关于数据分布的完美信息,模型误差也是不可避免的。
需要注意的是,在没有统计误差的情况下,函数近似误差只会发生在第一代,一旦新的分布能被函数近似器描述出来,就会在各代模型中保持完全相同的分布。
可以说,模型强大的近似能力是一把双刃剑:其表达能力可能会抵消统计噪声,从而更好地拟合真实分布,但同样也会使噪声复杂化。
对此,论文共同一作Ilia Shumailov表示:「生成数据中的错误会累积,最终迫使从生成数据中学习的模型进一步错误地理解现实。而且模型崩溃发生得非常快,模型会迅速忘记最初学习的大部分原始数据。」
然而,在一些特殊的文本中,这些方法并不能有效执行。比如,在EPFL研究中有ChatGPT合成的10个总结,而GPTZero只检测到6个是合成的。
对此,研究人员通过微调自己的模型来检测AI的使用,发现ChatGPT在编写本文时是最常用的LLM。
对于构建的检测AI数据的方法,研究人员利用原始研究中的答案和用ChatGPT合成的数据,训练了一个定制的「合成-真实分类器」。
然后用这个分类器来估计重新进行的任务中合成答案的普遍性。
具体来讲,研究人员首先使用真正由人类撰写的MTurk回应,和合成LLM生成的回应,来训练特定任务的「合成-真实分类器」。
其次,将这个分类器用于MTurk的真实回应(其中众包人可能使用,也可能没有依赖LLM),以估计LLM使用的普遍性。
最后,研究者确认了结果的有效性,在事后比较分析击键数据与MTurk的回应。
实验结果显示,这个模型在正确识别人工智能文本方面高达99%的准确率。
此外,研究人员用击键数据验证了结果,发现:
- 完全在MTurk文本框中写的总结(不太可能是合成的)都被归类为真实的;
- 在粘贴的总结中,提取式总结和LLM的使用有明显区别。
具体来讲,人工智能生成的文本通常与原始总结几乎没有相似之处。这表明AI模型正在生成新文本,而不是复制和粘贴原始内容的一部分。
「人类数据」很重要
现在,人们普遍担心LLM将塑造人类的「信息生态系统」,也就是说,在线可获得的大部分信息都是由LLM生成的。
使用综合生成数据训练的LLM的性能明显降低,就像Ilia Shumailov所称会让模型患上「痴呆症」。
而这个问题将会变得更加严重,因为随着LLM的普及,众包工作者们已经广泛使用ChatGPT等各种LLM。
但对于人类内容创作者来说,这是一个好消息,提高工作效率的同时,还赚到了钱。
但是,若想挽救LLM不陷于崩溃的边缘,还是需要真实的「人类数据」。
1. 人类数据在科学中仍然是至关重要的
2. 在合成数据上训练模型可能会带来偏见和意识形态永久化
3. 随着模型变得流行和更好/多模态,采用率只会增加
总的来说,由人类生成的原始数据可以更好地表示世界,虽然也可能包含某些劣质、概率较低的数据;而生成式模型往往只会过度拟合流行数据,并对概率更低的数据产生误解。
那么,在充斥着生成式AI工具和相关内容的未来,人类制作的内容或许会比今天更有价值,尤其是作为AI原始训练数据的来源。
参考资料:
相关文章
猜你喜欢