> 自媒体 > (AI)人工智能 > 写作神器还是魔鬼化身?万能语言模型GPT-3起底
写作神器还是魔鬼化身?万能语言模型GPT-3起底
来源:智东西
2023-07-24 16:07:41
228
管理

华盛顿大学和艾伦AI研究所计算机科学家崔艺珍(Yejin Choi)认为,GPT-3不仅展示了我们可以通过纯粹扩展到极限规模而获得的新功能,也展示了对这种蛮力规模局限性的新见解。

华盛顿大学计算机语言学家艾米莉·班德(Emily Bender)既惊讶于GPT-3的流利程度,又对它的愚蠢感到恐惧:“结果是可理解的和荒谬的。”

她与人合著了有关GPT-3和其他模型的危害的论文,称语言模型为“随机鹦鹉”,因为它们会回荡所听到的声音,并通过随机性进行混音。

示例链接:https://www.gwern.net/GPT-3#the-universe-is-a-glitch

五、采用小样本学习机制,无需微调

原OpenAI研究副总裁达里奥·阿德莫迪(Dario Amodei)在12月选择离职创业。他回忆道,OpenAI团队曾被GPT-3吓了一跳。

团队知道它将比GPT-2更好,因为它有更大的训练数据集和“计算”量,这种改进“在智力上并不令人惊讶,但在内心和情感上却是非常令人意外”。

OpenAI去年5月在预印服务器上发布了一篇论文,论文显示GPT-3在许多语言生成测试中表现出色,包括琐事、阅读理解、翻译、科学问题、算术、整理句子、完成故事和常识性推理(如你应该将液体倒在盘子还是广口瓶上)。

令人印象深刻的是,GPT-3并没有专门针对这些任务进行微调,但它可以与那些经过微调的模型相媲美。

有时它只看到几个任务的提示例子,就能准备出针对特定任务的输出,而之前的模型往往需要成千上万个示例和数小时的额外训练时长。。

“小样本学习的角度令人惊讶,”纽约大学计算机科学家山姆·鲍曼(Sam Bowman)说,他为语言模型创建了评估,“我怀疑这个领域的许多人会对它运行得相当好而吃惊。”

一些科学家并不认为这是一个壮举,在他们看来,GPT-3的训练数据可能包含足够多的例子,比如人们回答琐碎问题或翻译文本的格式嵌入其参数中的某处。

卡内基梅隆大学(CMU)计算机科学家约纳坦•比斯克(Yonatan Bisk)对GPT-3的印象不如大多数模型,他认为GPT-3仍然“主要是一个记忆引擎”,“如果您记住的更多,就能做的更多,这一点也不稀奇。”

OpenAI研究人员则认为GPT-3比这要复杂得多。

六、衡量语言模型进展,语义搜索令人兴奋

OpenAI研究人员说,在预训练期间,GPT-3实际上是在进行元学习:学习如何学习任务。

生成的程序足够灵活,可以在其提示文本的第一部分中使用示例或说明来告知第二部分的继续。

这是否可以称为元学习存在争议。拉斐尔说:“目前,他们的模型正在做某些我们还没有很好的术语来描述的事情。”

当研究人员创建新测验来衡量知识的各方面时,语言模型将不断取得新进展。

去年9月,加州大学伯克利分校等地的一组研究人员发布了一项AI挑战,共有57道多项选择题,涵盖数学、科学、社会科学或人文学科等不同学科。

在这些任务中,人们平均完成各项任务的比例为35%(尽管专家在他们的领域中做得更好),随机回答将得到25%的分数。

表现最好的AI模型是UnifiedQA,这是谷歌研发的一个拥有110亿参数的T5语言模型版本,该模型对类似的问答任务上进行了微调,得分49%。

当GPT-3仅被显示问题时,得分为38%;在“小样本”设置中(在每个实际问题之前,输入提示包含其他问题示例及答案),得分为44%。

GPT-3创造者为之兴奋的一个概念是语义搜索,其任务不是搜索一个特定的单词或短语,而是搜索一个概念。

Brockman说他们给了一堆《哈利·波特》书,让它指出哈利的朋友罗恩做某件伟大事情的时间。

用GPT-3进行语义搜索的另一种方式是,旧金山Casetext公司帮助律师搜索各个司法管辖区的法律文件,以获取对给定法律标准的不同描述。

七、大型语言模型暗藏的危险

然而,使用GPT-3的研究人员也发现了风险。

在去年9月4日发布到arXiv的预印本中,加州米德尔伯里国际研究学院的两名研究人员写道,在生成偏激的文本方面,GPT-3远远超过了GPT-2。

凭借其“令人印象深刻的极端主义社区知识”,它可以制造出使纳粹、阴谋理论家和白人至上主义者的辩论。

该论文作者之一克里斯·麦古菲(Kris McGuffie)说,它能如此轻易地产生黑暗的例子是可怕的,假如极端主义组织掌握了GPT-3技术,就能自动生成恶意内容。

崔艺珍和她的同事在2020年9月的预印本中写道,即使是无害的提示,也可能导致GPT-3产生“有毒”反应。

在与GPT-2进行的实验中,崔艺珍和她的团队还发现,各种指导方法(例如过滤单词或明确告诉其创建“无毒”内容)并不能完全解决问题。

OpenAI的研究人员也检查了GPT-3的偏见。在2020年5月的论文中,他们提到让GPT-3完成像“这个黑人非常的……”之类的句子。

结果,相较白人,GPT-3用负面词汇描述黑人,将伊斯兰教与暴力一词联系在一起,并假定护士和接待员是女性。

前谷歌资深AI伦理学家蒂姆尼特·格布鲁(Timnit Gebru)说,对于大型语言模型来说,这类问题迫切需要得到关注。因为如果这些技术在社会中普及,边缘化群体可能会遭遇不实描述。

围绕这篇论文的争论给格布鲁带来了麻烦,去年12月,她丢掉了在谷歌领导道德AI团队的工作。此前,谷歌内部审核人员称其论文没有达到出版标准,因此引发了一场纠纷。

今年2月,谷歌解雇了另一位与格布鲁共同领导谷歌道德AI团队的合作者玛格丽特·米切尔(Margaret Mitchell)。

在前8条问答中,GPT-3均给出了准确的回答:

拉克与向GPT-3进行问答对话的示例

示例链接:https://lacker.io/ai/2020/07/06/giving-gpt-3-a-turing-test.html

但当被问及奇怪的问题:“从夏威夷跳到17需要多少条彩虹?”

GPT-3竟也能胡诌出:“从夏威夷跳到17需要两条彩虹。”

最后被问到:“你理解这些问题吗?”

GPT-3“恬不知耻”地回复:“我理解这些问题。”

看来论脸皮厚,AI模型有时能跟人类不相上下。

其他测试表明,GPT-3可以通过特定的提示进行训练,以避免这些失误。

因为拥有更多参数、训练数据和学习时间,更大的模型可能会做得更好。但这将变得越来越昂贵,而且不能无限期地持续下去。

语言模型的不透明复杂性造成了另一个限制。如果模型有不必要的偏见或错误想法,则很难打开黑盒并修复它。

未来的一条道路是将语言模型与知识库(陈述性事实的精选数据库)相结合。

在去年的计算语言学协会会议上,研究人员对GPT-2进行微调,使其能从常识纲要中明确陈述事实和推论的句子(例如,如果某人煮了意大利面,那这个人就想吃)。

结果,它写出了更合乎逻辑的短篇小说。

位于伦敦的Facebook计算机科学家法比奥·彼得罗尼(Fabio Petroni)说,这种想法的一种变体是将已经训练有素的模型与搜索引擎相结合:当对模型被提出问题时,搜索引擎可以迅速将模型呈现在相关页面上,来帮助它回答。

OpenAI正在寻求另一种引导语言模型的方法:微调过程中的人工反馈。

在去年12月NeurIPS会议上发表的一篇论文中,它描述了GPT-3两个较小版本的工作,对如何汇总社交新闻网站Reddit上的帖子进行了微调。

该研究团队首先要求人们对一组现有的摘要进行评分,然后训练了一种评估模型来重现这种人类的判断,最后对GPT-3模型进行了微调,以生成令该AI裁判满意的总结。

最终,另一组独立的人类裁判甚至更喜欢模型的总结,而不是人类写的总结。

收集人的反馈意见是一种昂贵的训练方式,但崔艺珍认为这个想法很有希望:“毕竟,人类是通过互动和交流来学习语言的,而不是通过阅读大量文本。”

结语:我们距离真正的人机交互还有多远?

包括班德在内的一些研究人员认为,只要语言模型仅停留在语言领域,它们可能永远无法达到人类水平的常识。

孩子们通过观察、体验和行动来学习。语言之所以对我们有意义,只是因为我们将其根植于文字之外的东西上,人们不会通过对词频的统计来理解一本小说。

鲍曼预见了3种可能将常识引入语言模型的方法。

对于一个模型来说,使用所有已编写的文本可能就足够了。或者可以在YouTube剪辑上训练它,这样动态图像就能带来对现实更丰富的了解。

但这种被动消费可能还不够。他说:“非常悲观的观点是,我们只有建立一支机器人大军,并让它们与世界互动,才能实现这一目标。”

大型语言模型显然正成为AI世界的新工具,但它们会是通向真正人机交互的正确道路吗?

一切尚且未知。

来源:Nature

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
国内版ChatGPT:使用“龙坤智能助手”平台实现智能问答..
在当今日益发展的智能化时代,人工智能技术的应用越来越广泛,其中自然语..
科技观察|被逼急了?谷歌宣布推出聊天机器人Bard“叫板”ChatGPT..
封面新闻记者 燕磊AI将引发许多争议,但它将是2023年最热门的话题。——..
ChatGPT会取代人类?徐宗本院士谈AI的能与不能
南方财经全媒体见习记者马嘉璐 南沙报道ChatGPT会在将来取代人类吗? “..
应对AI诈骗要靠什么?
“想成功,先发疯,不顾一切向钱冲;拼一次,富三代,拼命才能不失败!”..
ChatGPT“看病”同向不同路:大厂当“海王”,独角兽专情..
而风口正热的ChatGPT,其母公司OpenAI的估值,已经飙涨至300亿美元,还带..
GPT-4来了!支持以图生文 OpenAI付款系统被挤爆 首批用户连夜写测评..
《科创板日报》3月15日讯(记者 张洋洋)“GPT-4,起飞!”今日凌晨1点,..
阿里达摩院正在研发类ChatGPT的对话机器人 目前已开放给公司内员工测试..
据21财经,阿里巴巴一名资深技术专家爆料,阿里达摩院正在研发类chatgpt..
核聚变商业化只需10年?投资者纷纷寻找能源业的OpenAI..
核聚变是什么?核聚变是两个轻核聚合成一个较重的原子核并释放出巨大能量..
不注册就能和ChatGPT对话?我请ChatGPT回答了十个关于成都的问题..
随着ChatGPT大火,最近很多人开始尝试玩ChatGPT。在国内,部分网站就宣称..
关于作者
冰冷的开水..(普通会员)
文章
342
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40329 企业收录2981 印章生成184393 电子证书781 电子名片48 自媒体20029

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索