> 自媒体 > (AI)人工智能 > 人类喜讯,GPT-4变笨!错误率暴涨40倍,数学能力断崖式下跌
人类喜讯,GPT-4变笨!错误率暴涨40倍,数学能力断崖式下跌
来源:头部科技
2023-07-30 16:07:58
417
管理

哎呀,真是做人难,做机器人难,做著名机器人更难。‍‍‍‍

论文实锤6月GPT-4降智,3个月时间不进反退

GPT-4在哪些方面降智了呢?

首先是求解数学问题。

在判定一个数是否是质数上的问题上,2023年3月GPT-4 的准确率为97.6%,到了6月份,在这些相同的问题上GPT-4的准确率只剩2.4%。

而此前表现拉胯的GPT-3.5,从三月份7.4%的准确度暴涨到 86.8%。

研究人员推测,这可能是因为GPT-4 在2023年6月增加了更强的安全机制,而GPT-3.5则放松了。

生成代码

研究人员还发现,从2023年3月到6月,GPT-4 能够直接运行的代码比例减少了。

如图所示,GPT-4在2023年3月的版本有超过50%的代码是可运行的,但在2023年6月的版本只有10%。GPT-3.5也有相同的趋势。

研究人员猜测导致可运行代码比例下降的一个原因可能是2023年6月的版本会在代码中添加一些多余的非代码文本。

GPT-4在2023年3月和6月的版本生成的代码基本相同,但有两处区别,一是2023年6月的版本在代码前后加了“‘python”和“‘”。

二是2023年6月的版本加了一些注释。这些变化看似微小,但多出来的三引号却使得代码无法运行。并且,这个问题在把LLM生成的代码集成到更大的软件项目中时更难发现。

视觉推理

在视觉推理上,研究人员发现GPT-4和GPT-3.5的表现都没有明显提高。而且它们在两个版本之间的回答重复率很高,达到90%。

这些服务的总体准确率也很低:GPT-4是27.4%,GPT-3.5是12.2%。值得注意的是,更新的LLM并不一定能生成更好的结果。

有时候,GPT-4在2023年6月的版本会在2023年3月的版本能答对的问题上出错。

例如,测试数据来自ARC数据集,要求生成一个3×3的网格,用数字的二维数组表示网格的颜色。

GPT-4在2023年3月的版本生成了正确的网格,但在2023年6月的版本却生成了错误的网格。

GPT-4为什么变笨了?OpenAI回应

按理来说,经过三个月的发展,GPT-4的实力应该突飞猛进,但为什么降智了呢?

网上流传了很多猜测。例如,OpenAI可能采取了成本削减措施

一位网友指出,GPT-4的运行成本很高,他怀疑OpenAI开始限制使用量,比如从原来每3小时可以发送100条信息降到现在的25条。

他还怀疑OpenAI是否让GPT-4不再对多个候选答案进行评估,而是直接给出最快的答案。这样做可以缩短决策时间,降低计算成本,但也会导致回答质量下降。

不过虽然论文本身没有直接回答GPT-4为什么变笨,但研究人员用 longitudinal drifts 纵向漂移来描述模型能力随时间变化而不稳定的现象。

直白点说,OpenAIOpenAI并不是故意让模型变笨来节省成本!相反,它似乎也无法控制模型能力的稳定性和提升速度。

而OpenAI回应也暗示了GPT-4在一些任务的表现可能下降了。

不过近期GPT-4虽然处于风口浪尖上,ChatGPT的上新速度却一直没减缓。

今日,OpenAI又官宣了ChatGPT自定义指令(Custom instructions)新功能。

和指令集、代码解释器一样,自定义指令也是 Plus 用户专属功能,在设置中启用即可在 GPT-4 模型调用。

开启后,你可以给ChatGPT一个固定的指令,让它记住或扮演某个角色,然后按照你的要求生成内容。

这样,你就不用每次在Prompt前加上一堆限制条件,ChatGPT可以完全遵循你的指令。

比如,你可以让它扮演教师,按照你的需求设计课程,或者让它教你Python编程,或者让它做你的营养师,给你合理的食谱和购物清单。

可以发现,尽管GPT-4在一些任务上的表现有所下降,但这并不意味着它失去了其价值和潜力。相反,它正在以另一种方式进化。

如果您有什么想说的,欢迎屏幕前你们在评论区留言讨论!我们将为点赞、评论、关注的同学们送上红包不限量哟~

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
加勒比海盗..(普通会员)
文章
441
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40334 企业收录2981 印章生成191348 电子证书820 电子名片51 自媒体24858

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索