GPT-4「变笨」被斯坦福实锤：短短仨月数学问题错误率暴涨40倍！-脚本导航

> 自媒体 > （AI）人工智能 > GPT-4「变笨」被斯坦福实锤：短短仨月数学问题错误率暴涨40倍！

GPT-4「变笨」被斯坦福实锤：短短仨月数学问题错误率暴涨40倍！

来源：量子位

2023-08-01 11:59:02

529

管理

丰色克雷西发自凹非寺

量子位 | 公众号 QbitAI

GPT-4变笨，实锤了？？？

来自斯坦福大学和UC伯克利大学的一篇最新论文显示：

6月的GPT-4在一些任务上的表现客观上就是比3月的更差。

比如他们用同样500道「判断给定整数是否为质数」的问题来测这两个版本，发现3月份的GPT-4答对了488个，而6月只对了12个……成功率直接从97.6%下降到2.4%！

而当研究员通过经典的「Let’s think step by step」办法来引导后者往正确答案上靠时，居然不好使了——

6月的GPT-4已不再尝试给出中间步骤，而是仍然直接回答「yes」或「no」。

不止如此，代码能力也下降了。

对于50道简单级别的LeetCode题，6月的GPT-4只能做到有10%的答案可以不经更改直接运行，而在3月份的时候，这个数字还是52%。

目前，这项结论已在网上引起了极大的关注。

具体来看，论文中展示了GPT-4对其中一个问题的回答。（展示的数字为17077，经验证是质数）

有段Markdown标记直接以文本形式显示在了输出结果之中，导致程序无法直接运行。

之所以研究者认为GPT-4在这里犯了错，是因为在prompt中已经强调了「code only」。

虽然GPT-4实用性上表现有所下降，但安全性似乎得到了提升。

对于敏感问题，GPT-4回答的概率下降了超四分之三，相应做出的解释也变少了。

所以，在这一方面很难说GPT-4究竟是变好还是变坏了。

总体上看，论文作者的态度比较谨慎，没有直接断言GPT-4表现是否变差。

但在数学和代码方面，文中给出的证据的确印证了一些网友们的说法。

而作者也表示，这一发现主要是告诉大家，不断地去测试AI系统的能力并监控其发展非常重要。

为什么会这样？

不管怎么说，看完这项研究后，还是有不少人兴奋地表示：终于有研究证明我一直以来的猜测了。

这也就引出了网友们的第二点猜测：

GPT-4的能力可能并非下降了，而是转移了。

这就导致我们使用「最基础的」GPT-4提问时，它已经不会再直接调用各种「专家模型」帮我们解答了，强大的专家能力都被路由到各类插件和诸如代码解释器这样的集成功能上了。

不过说到底，这也算降本增效的一种手段。

当然，也有想法认为，OpenAI这是为了推广插件和新功能才故意削减了GPT-4的基础能力。

普林斯顿教授实名反对

值得注意的是，不管网友的猜测听起来多么有理有据，OpenAI其实一直都在否认，声称他们并未采取任何措施导致模型质量下降。

与此同时，另一波学者和网友恰好也对这篇研究提出了质疑。

来自普林斯顿大学的两位CS教授指出：

这篇论文产生了「GPT-4变笨了」的误解，因为它只是简单显示了GPT-4行为的改变，而行为变化并不等同于能力下降。

并且实验本身的评估也有问题，作者有误将模仿当作推理。

为了说明自己的观点，他们直接开了一篇博客。

以判断质数问题为例，他们发现，评估给出的500个数字全是质数。这个问题就大了，它意味着正确答案始终是「yes」，模型就可能产生了随机模仿的能力（也就是照着之前的正确答案无脑抄下去）。

因为事实证明，在大多数情况下，没有一个模型会真正一一执行「判断数字能否被整除」的算法——他们只是假装做了。

比如下面这个3月份GPT-4的快照，它只是列了一堆待检查的数字，然后没有一一去除就直接给出「19997是质数」的回答。

也就是说，3月份的GPT-4可能是无脑答对的，其表现并不能证明其数学能力；相反，也就不能证明6月份的GPT-4不行了（可能本来就是这个水平）。

为了进一步证明自己的看法，教授们用500个合数测试了模型，结果是3月版本的GPT-4几乎总是猜测这些数字是质数，而6月版本则几乎认为是合数。

——评估数据一换，结果就完全不同，这足以说明原作者的结论并不算立得住了。

除此之外，在下降最多的代码编写能力方面，教授们也认为，作者只是检查代码是否可以直接执行，而不评估其正确性的方式，这种方式也同样草率。

这意味着新GPT-4试图提供更多帮助的能力被抵消了。

以上这些观点，均得到了英伟达AI科学家Jim Fan的支持，他表示：

这也让我想到了GPT-4满分拿下MIT数学本科考试那篇论文。（被质疑造假，数据和评估方式都有问题）

但他认为，这都不重要，重要的是大家一起来battle。

所以，你认为GPT-4到底变笨了没？

论文地址：https://arxiv.org/abs/2307.09009

参考链接：[1]https://twitter.com/DwayneCodes/status/1681617375437922309[2]https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time[3]https://twitter.com/DrJimFan/status/1681771572351369216

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

1

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

OpenAI科学家造出婴儿Llama2！GPT-4辅助写500行纯C代码揽1.6k星

2023-08-01 12:02

GPT-4计算能力差怎么破？把它当小学生，保证结果跟计算器一样准

2023-08-01 11:56

相关文章

专访王小川|曾预言过ChatGPT方向，年内推出中国版ChatGPT PRO..

ChatGPT引燃了一轮AI创业潮，无数头顶光环的企业家入局，王小川也是其中..

法媒关注中国国产ChatGPT

据《费加罗报》8月31日报道，百度发布的“中国版ChatGPT”聊天机器人文心..

中国版ChatGPT正在血洗职场：你的饭碗还能端多久？

"我用DeepSeek写周报被主管连夸三天，现在慌得睡不着觉。"凌晨2点，某互..

荐书丨《ChatGPT来了：语言科学如何看待ChatGPT》

ChatGPT来了基本信息副标题：语言科学如何看待ChatGPT作者: 杨旭 / 罗仁..

ChatGPT vs DeepSeek - 中文语法推理

问题：“你这铺馆没字号，就叫狗不理吧。 ” 这句话当中的 “就” 是个介..

ChatGPT时代语料库与术语库建设与应用工作坊

戴光荣博士，广东外语外贸大学教授，原福建工程学院人文学院院长，福建省..

“请不要对我有过高的期望，我仅是一个AI模型”丨对话ChatGPT..

当地时间2023年2月1日，瑞士高中教师参加了关于ChatGPT的研讨会。（视觉..

新闻可信度评估机构：ChatGPT或成传播网络谣言最强工具..

由OpenAI开发的人工智能聊天工具ChatGPT在全球引发广泛关注，众多用户尝..

对话调教ChatGPT，居然变成在线犯罪指南！

关于作者

轻随风之舞..(普通会员)

文章

886

关注

0

粉丝

1

点击领取今天的签到奖励!

猜你喜欢

01

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

02

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

03

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

2023/07/18

04

DeepSeek 究竟是个啥？一文带你看明白

29天前

05

上海女家长陪睡校长，不雅聊天记录曝光！真是三观尽毁

2023/06/19

标签云

成员 网址收录40394 企业收录2981 印章生成234125 电子证书1032 电子名片60 自媒体46877

@2022 All Rights Reserved

浙ICP备19035174号-7

1

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索