> 自媒体 > (AI)人工智能 > GPT-4「变笨」被斯坦福实锤:短短仨月数学问题错误率暴涨40倍!
GPT-4「变笨」被斯坦福实锤:短短仨月数学问题错误率暴涨40倍!
来源:量子位
2023-08-01 11:59:02
454
管理

丰色 克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

GPT-4变笨,实锤了???

来自斯坦福大学和UC伯克利大学的一篇最新论文显示:

6月的GPT-4在一些任务上的表现客观上就是比3月的更差。

比如他们用同样500道「判断给定整数是否为质数」的问题来测这两个版本,发现3月份的GPT-4答对了488个,而6月只对了12个……成功率直接从97.6%下降到2.4%!

而当研究员通过经典的「Let’s think step by step」办法来引导后者往正确答案上靠时,居然不好使了——

6月的GPT-4已不再尝试给出中间步骤,而是仍然直接回答「yes」或「no」。

不止如此,代码能力也下降了。

对于50道简单级别的LeetCode题,6月的GPT-4只能做到有10%的答案可以不经更改直接运行,而在3月份的时候,这个数字还是52%。

目前,这项结论已在网上引起了极大的关注。

具体来看,论文中展示了GPT-4对其中一个问题的回答。(展示的数字为17077,经验证是质数)

有段Markdown标记直接以文本形式显示在了输出结果之中,导致程序无法直接运行。

之所以研究者认为GPT-4在这里犯了错,是因为在prompt中已经强调了「code only」。

虽然GPT-4实用性上表现有所下降,但安全性似乎得到了提升。

对于敏感问题,GPT-4回答的概率下降了超四分之三,相应做出的解释也变少了。

所以,在这一方面很难说GPT-4究竟是变好还是变坏了。

总体上看,论文作者的态度比较谨慎,没有直接断言GPT-4表现是否变差。

但在数学和代码方面,文中给出的证据的确印证了一些网友们的说法。

而作者也表示,这一发现主要是告诉大家,不断地去测试AI系统的能力并监控其发展非常重要。

为什么会这样?

不管怎么说,看完这项研究后,还是有不少人兴奋地表示:终于有研究证明我一直以来的猜测了。

这也就引出了网友们的第二点猜测:

GPT-4的能力可能并非下降了,而是转移了。

这就导致我们使用「最基础的」GPT-4提问时,它已经不会再直接调用各种「专家模型」帮我们解答了,强大的专家能力都被路由到各类插件和诸如代码解释器这样的集成功能上了。

不过说到底,这也算降本增效的一种手段。

当然,也有想法认为,OpenAI这是为了推广插件和新功能才故意削减了GPT-4的基础能力。

普林斯顿教授实名反对

值得注意的是,不管网友的猜测听起来多么有理有据,OpenAI其实一直都在否认,声称他们并未采取任何措施导致模型质量下降。

与此同时,另一波学者和网友恰好也对这篇研究提出了质疑。

来自普林斯顿大学的两位CS教授指出:

这篇论文产生了「GPT-4变笨了」的误解,因为它只是简单显示了GPT-4行为的改变,而行为变化并不等同于能力下降。

并且实验本身的评估也有问题,作者有误将模仿当作推理。

为了说明自己的观点,他们直接开了一篇博客。

以判断质数问题为例,他们发现,评估给出的500个数字全是质数。这个问题就大了,它意味着正确答案始终是「yes」,模型就可能产生了随机模仿的能力(也就是照着之前的正确答案无脑抄下去)。

因为事实证明,在大多数情况下,没有一个模型会真正一一执行「判断数字能否被整除」的算法——他们只是假装做了。

比如下面这个3月份GPT-4的快照,它只是列了一堆待检查的数字,然后没有一一去除就直接给出「19997是质数」的回答。

也就是说,3月份的GPT-4可能是无脑答对的,其表现并不能证明其数学能力;相反,也就不能证明6月份的GPT-4不行了(可能本来就是这个水平)。

为了进一步证明自己的看法,教授们用500个合数测试了模型,结果是3月版本的GPT-4几乎总是猜测这些数字是质数,而6月版本则几乎认为是合数。

——评估数据一换,结果就完全不同,这足以说明原作者的结论并不算立得住了。

除此之外,在下降最多的代码编写能力方面,教授们也认为,作者只是检查代码是否可以直接执行,而不评估其正确性的方式,这种方式也同样草率。

这意味着新GPT-4试图提供更多帮助的能力被抵消了。

以上这些观点,均得到了英伟达AI科学家Jim Fan的支持,他表示:

这也让我想到了GPT-4满分拿下MIT数学本科考试那篇论文。(被质疑造假,数据和评估方式都有问题)

但他认为,这都不重要,重要的是大家一起来battle。

所以,你认为GPT-4到底变笨了没?

论文地址:https://arxiv.org/abs/2307.09009

参考链接:[1]https://twitter.com/DwayneCodes/status/1681617375437922309[2]https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time[3]https://twitter.com/DrJimFan/status/1681771572351369216

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

1
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
微软抢先官宣ChatGPT版新必应,搜完答案还能持续聊天
北京时间2月8日凌晨,微软宣布:集成了ChatGPT的新必应搜索引擎正式上线..
实锤GPT-4真变笨了:3个月内数学能力雪崩式下降,代码能力也变差..
机器之心报道编辑:Panda前些天,有不少用户抱怨 GPT-4 变笨了,但到底变..
chat GPT-4AI机器人小孩它是真人扮演的吗?
在科技飞速发展的当今世界,人工智能(AI)已经为我们带来了许多令人瞩目..
你有没深入想过,什么造成了GPT-4的输出很随机?
机器之心报道编辑:小舟Google Deepmind 可能早就意识到了这个问题。今年..
ChatGPT-4使用限制下降到每3小时25条-是割韭菜还是我们应该反思..
#头条创作挑战赛#"周末openai gpt -4第四次限流,付费用户3小时25条信息..
项立刚:ChatGPT就是聊天机器人,没鸟用!周鸿祎:美国都在赌AI~..
掌握未来商业命脉:人工智能在全球范围内的崛起与争议此外,在科技领域专..
OpenAI CEO山姆·阿尔特曼携手创始人推出Worldcoin:解决生成式人工智能挑..
驱动中国2023年7月26日消息,近日,Worldcoin项目联合创始人包括OpenAI C..
到底什么是ChatGPT?
在人工智能技术日益发展的今天,ChatGPT已经成为了众人瞩目的明星产品。..
听说chatGPT很火?今天我试试
最近chatGPT可谓是火爆全网,今天闲来无事,就利用chatGPT写了两篇文章,..
关于作者
轻随风之舞..(普通会员)
文章
640
关注
0
粉丝
1
点击领取今天的签到奖励!
签到排行

成员 网址收录40369 企业收录2981 印章生成216707 电子证书945 电子名片57 自媒体34015

@2022 All Rights Reserved 浙ICP备19035174号-7
1
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索