GPT-4满分通过MIT本科数学考试！这套提示词火了-脚本导航

> 自媒体 > （AI）人工智能 > GPT-4满分通过MIT本科数学考试！这套提示词火了

GPT-4满分通过MIT本科数学考试！这套提示词火了

来源：量子位

2023-07-11 11:21:18

296

管理

衡宇发自凹非寺

量子位 | 公众号 QbitAI

万万想不到啊，MIT数学考试，被GPT-4攻破了？！

突然有人在最新论文工作中高调宣布：

GPT-4在MIT的数学和EECS（电气工程和计算机科学系）本科学位考试中，表现出的能力完全满足毕业要求。

而且妥妥地拿下满分！

要知道，测出这个结果的不是别人，正是来自MIT和波士顿大学、康奈尔大学的研究团队。

而且强如上一代王者GPT-3.5，在同样的测试中，只成功搞定了三分之一。

△GPT-3.5考试成绩

论文一出，无数目光迅速被吸引过来。

GPT-4这样看似开挂的行为，自然引发了不少网友的感慨。

比GPT-3.5强好多，好耶！

还有网友展现了自己网上冲浪的“前沿性”，玩了个这两天Yann LeCun吐槽“GPT-4智商不如狗”的梗：

去年年初，MIT 哈佛哥伦比亚大学滑铁卢大学的联合研究表示，把数学问题转换成等价的编程问题，就可以让GPT-3的同门师兄弟——OpenAI的Codex掌握高数，达到MIT本科水平。

学了6门MIT本科基础数学课里随机抽取的例题，6门课程每门随机出25道题，再加上一个ACT水平（美国高考）的数据集里的60道题。

总计210道题，AI全部答对。

不过有人提出，AI达到的“MIT本科水平”，实际是Codex在做语言题而非数学题——

因为当时的评测中，Codex负责读写，并不包括求解。

所以，这一回GPT-4表现奇佳，怎一个妙字了得～

好了，知道你很着急夸它，但你先别着急夸它，因为很快有人发现了一些“诡异”。

主要有2大槽点。

第一个值得质疑一番的，就是OpenAI的训练数据集没有完全公布。

这也就意味着，无法证明数据集中的4550个问题和解决方案，在GPT-4的训练集中不存在。

换句话说，如果GPT-4在预训练阶段已经接触到了这次的考题们，那最终拿下完美得分，就没什么好惊喜的了。

也难怪乎有网友毫不客气地yygq，认定GPT-4拿到这样的结果，一定是数据集已经包含在训练数据里了。

第二个槽点，就是GPT-4最后100%的得分率，似乎哪里不对劲？？？

定睛一看，在论文的第2.6节有一句很关键的点：

团队在数据集上微调开源大模型，“给定问题Q、基本事实解S和LLM答案A，我们使用GPT-4自动对模型响应进行评分”。

实际操作上，就是每个大模型生成这次考试的答案，然后派出GPT-4打分，分值在0-5之间。

所以给GPT-4打出满分的，实际上是GPT-4自己。

啊这……很难说没有王婆卖瓜自卖自夸的嫌疑。

此外，关于要给GPT-4提供“好的提示”，才能让它达到满分成绩，也让许多人抱有微词。

到底什么算“好的提示”呢？似乎无法定义。

甚至有人喊着，应该把这些题丢给MIT数学和EECS的学生去做，并不断给他们“好的提示”，这样人类学生也能拿下100%的吧……

One More Thing

一个小小的彩蛋：

整个测试中，基本上可以在笔记本电脑上部署运行的StableVicuna-13B，也有48%的得分率。

这个成绩，不仅比模型更大的LLaMA-65B高出近10个百分点，就连MIT fine-tuing过后的LLaMA-30B，还要高。

让人不得不陷入一些关于模型规模与能力相关性的思考

。

参考链接：[1]https://arxiv.org/abs/2306.08997[2]https://twitter.com/johnjnay/status/1669687958960586753[3]https://twitter.com/arankomatsuzaki/status/1669528841629601792[4]https://twitter.com/emollick/status/1669742473097228292

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

陶哲轩自曝用了「满血」GPT4：人类对信息技术的期待全部需要校准

2023-07-11 11:23

2024年，中国将出现比肩GPT4的大模型？

2023-07-11 11:19

相关文章

多合一AI机器人客户端ChatALL,有 ChatGPT，GPT4，Bard、Claude等..

ChatALL是一款功能强大的多合一AI机器人客户端，为用户提供了便捷的同时..

马斯克没解决的难题，这家独角兽先跑通！或成为人形机器人第一股..

编辑：Aeneas 好困【新智元导读】8年深耕，OpenAI做出让全世界瞩目的Chat..

AI有了实体，ChatGPT接入波士顿动力机器狗，蓝领也危了！..

文丨CheeliaAIGC席卷蓝标之后，原本看似“安全”的蓝领也变得岌岌可危。..

美股前瞻 | 三大股指期货上扬，特斯拉盘前续涨超3%；小摩CEO：通胀或使美联..

摩通CEO：通胀或使美联储将利率升至5%以上小摩首席执行官杰米·戴蒙表示..

聊天你“尬”了吗？送你小秘籍克服聊天“尴尬症”

有小伙伴常常感叹自己莫名把天聊死，最怕空气突然的安静……聊天瞬间没话..

ChatGPT来了，产品经理如何克服焦虑？

随着ChatGPT的到来，各行各业、各大社交媒体都在传播该内容，让一部分人..

GPT-4抄袭太可恨求销毁！《纽约时报》正式起诉OpenAI

新闻报道用于AI训练，能被禁止吗？美国业界对于《纽约时报》的评价一直两..

OpenAI：ChatGPT现在已经默认升级最新版本GPT-4

OpenAI 近期通过官方 X（即推特）账号，宣布 ChatGPT 现在已经默认升级到..

揭秘·国内版ChatGPT——百度“文心一言”表现如何

2023年3月16日，国内类ChatGPT应用百度“文心一言”千呼万唤始出来，百度..

关于作者

冰冷的开会..(普通会员)

文章

591

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

02

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

03

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

2023/07/18

04

上海女家长陪睡校长，不雅聊天记录曝光！真是三观尽毁

2023/06/19

05

OpenAI突发更新！GPT-3.5正式开放微调，人人可打造专属ChatGPT

2023/08/26

标签云

成员 网址收录40369 企业收录2981 印章生成216706 电子证书945 电子名片57 自媒体34015

@2022 All Rights Reserved

浙ICP备19035174号-7

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索