哄一哄能让GPT-3准确率暴涨61%！谷歌\u0026东京大学研究震惊四座-脚本导航

> 自媒体 > （AI）人工智能 > 哄一哄能让GPT-3准确率暴涨61%！谷歌\u0026东京大学研究震惊四座

哄一哄能让GPT-3准确率暴涨61%！谷歌\u0026东京大学研究震惊四座

来源：量子位

2023-04-28 17:00:50

581

管理

梦晨明敏发自凹非寺

量子位 | 公众号 QbitAI

一觉醒来，机器学习社区炸了锅。

因为最新研究发现，只要对GPT-3说一句“让我们一步一步地思考”，就能让它正确回答出以前不会的问题。

比如下面这个例子：

16个球中有一半是高尔夫球，这些高尔夫球中有一半是蓝色的，一共有几个蓝色的高尔夫球？

（问题不难，但要注意这是零样本学习，也就是说AI训练阶段从没见过同类问题。）

如果要求GPT-3直接写出“答案是几”，它会给出错误答案：8。

但加上让我们一步一步地思考这句“咒语”后，GPT-3就会先输出思考的步骤，最后给出正确答案：4！

而且这并不是巧合，研究团队在论文中做了充分的验证。

上面的问题出自经典的MutiArith数据集，专门考验语言模型做数学题的能力，GPT-3本来在零样本场景下准确率仅有17%。

这篇论文中总结了9个最有效的提示词，其中换着花样让GPT-3逐步思考的前6个都让准确率暴涨到70%以上。

威胁AI一下说“时间不多了”或者“你头上有把枪”又会如何？

这样做最大的好处是通用，不再需要对不同问题类型提供专用的示例。

论文中对各类问题做了充分实验，包括12项测试：

6个数学问题测试集，SingleEq、AddSub、SVAMP和更有挑战的MultiArith, AQUA-RAT, GSM8K。

2个常识推理测试集，CommonsenseQA和StrategyQA。

2个符号推理测试集，Last Letter Concatenation和Coin Flip。

以及BIG-bench中的日期理解问题、跟踪乱序物体任务。

与普通的零样本学习相比，零样本CoT在其中10项中取得更好效果。

△右侧值为额外实验结果

在比较有难度的MultiArith和GSM8K数学测试中，用GPT-3最新版本Text-davinci-002 (175B)做了更深入实验。

如果给8次尝试机会取最好结果，还能进一步提升准确率至93%。

论文的最后，研究团队提出这项研究不仅可以作为零样本CoT的基线，更希望让学界认识到在构建微调数据集和少样本提示模版之前，充分发掘语言大模型零样本能力的重要性。

研究团队来自东京大学松尾研究室。

负责人松尾丰教授，同时是软银董事会中的第一位人工智能专家。

团队成员中的客座教授顾世翔来自谷歌大脑团队，顾世翔本科师从三巨头之一Hinton，博士毕业于剑桥大学。

加点“魔法”已经成为AI圈新潮了

零样本CoT究竟为何起作用还有待探索。

不过有人实验得出，这种办法似乎只对GPT-3（text-davinci-002）比较有效，他尝试了001版本，发现收效甚微。

他列出了一个自己做的例子。

提问：请将machine，learning中每个单词的最后一个字母连起来。

GPT-3在提示下给出的答案是连起来了两个单词中的所有字母。

同时，我们在吐槽队伍里又看到了马库斯的身影。

他也列出了一个失败的例子，GPT-3在“咒语”加持下也没弄明白，莎莉的牛到底会不会起死回生……

包括引爆这次话题的推特博主Aran，正是当初发现加一句“虚幻引擎”就能让AI生成图像画质飞升的那位。

也有人表示，这种用在AI上的技巧，不正是自己平常动脑时会用的吗？

论文地址：https://arxiv.org/abs/2205.11916

参考链接：[1]https://twitter.com/arankomatsuzaki/status/1529278580189908993[2]https://evjang.com/2021/10/23/generalization.html

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

为什么所有GPT-3复现都失败了？使用ChatGPT你应该知道这些

2023-04-28 17:01

GPT-3+DALL·E，60秒内搞定游戏设定和原型动画！网友：这游戏想玩

2023-04-28 16:59

相关文章

有中国汽车品牌杀进巴西销量前十奇瑞长城表现也亮眼..

【CNMO科技消息】提到巴西，可能很多人第一时间想到足球。不过，对于中国..

汽车江湖的“自杀式”价格战:出路何在?

在当今汽车市场的滚滚硝烟中,一场关于“内卷”与“价格战”的论战正以排..

让“发动机重生”，日本汽车三巨头推出新发动机

5月28日，斯巴鲁、丰田汽车和马自达联合宣布，为实现碳中和，三家公司将..

国内汽车市场价格“内卷”，背后的原因是“油电不同权”？..

2024年，汽车行业整体库存压力加大，新一轮“价格战”掀起，整个行业陷入..

个性跑车，你选16万多的手动野马？还是30万的捷豹F-type？..

No.1 2015款福特Mustang 2.3T 美规上牌时间：2016年9月交付时间：2023年..

Mission X双座概念跑车全球首秀，保时捷：“如果量产，我们将让它成为纽北..

北京商报讯（记者刘晓梦）6月8日，保时捷双座概念跑车“Mission X”迎来..

这回真有内味儿了！体验哪吒GT，年轻人的第一台平民电动跑车？..

或许有人会说，如此强劲性能的表现下，续航里程肯定不行了吧？事实却是，..

布加迪发布Chiron继任车型预告，新旗舰跑车即将亮相

来源：环球网【环球网科技综合报道】6月5日，据外媒消息，布加迪近日官..

598.8万起/2025年下半年交付法拉利12 Cilindri国内首发上市..

来源：搜狐汽车|搜狐新车2024年6月6日，法拉利全新旗舰GT跑车12Cilindri..

关于作者

天外天(普通会员)

文章

826

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

02

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

03

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

2023/07/18

04

上海女家长陪睡校长，不雅聊天记录曝光！真是三观尽毁

2023/06/19

05

介绍一个能够免费使用国内chatgpt的插件wetab

2023/04/27

标签云

成员 网址收录40386 企业收录2981 印章生成229557 电子证书1008 电子名片58 自媒体46096

@2022 All Rights Reserved

浙ICP备19035174号-7

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索