GPT-4变笨实锤！3个月性能暴减1/10，代码生成大不如前-脚本导航

> 自媒体 > （AI）人工智能 > GPT-4变笨实锤！3个月性能暴减1/10，代码生成大不如前

GPT-4变笨实锤！3个月性能暴减1/10，代码生成大不如前

来源：新智元

2023-07-28 11:51:43

537

管理

编辑：编辑部

【新智元导读】GPT-4性能下降终于有了依据。

GPT-4变笨实锤了？

斯坦福、UC伯克利最新研究称，和3月相比，GPT-4在6月的性能直接暴降。

甚至，代码生成、问题回答大不如前。

求解数学问题，CoT失败了

在求解数学问题上，GPT-4准确率不仅下降，就连解题步骤都给省了。

文章地址：https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time

能力≠行为

首先，聊天机器人的一个重要概念是，能力和行为之间存在着很大的差异。

一个具有某种能力的模型，可能会或可能不会在回应特定提示时，显示出这种能力。

而让聊天机器人获得能力的预训练过程代价极高，对于最大的模型来说，可能需要数月的时间，因此永远不会重复。

另一方面，模型的行为也会受到后续微调的影响。相比起来，微调成本要低得多，而且会定期进行。

请注意，经过预训练的基础模型只是一个高级的自动完成工具——它不会与用户聊天，聊天行为是通过微调产生的。

微调的另一个重要目标是防止出现不良输出。换句话说，微调既能激发能力，也能抑制能力。

基于这些知识，我们就可以预料到，随着时间的推移，模型的能力会保持相对稳定，但它的行为却会有很大的变化。这与论文的发现完全一致。

没有能力下降的证据

论文作者在四项任务中，对GPT-3.5和GPT-4进行了测试。

OpenAI通过其API提供了模型在三月和六月的「快照」，因此论文中所比较的，也是这两个模型快照的行为。

具体来说，他们选择了数学问题（检查一个数字是否是质数）、回答敏感问题、代码生成和视觉推理，这四类问题进。其中，数学问题和代码生成这两项任务的性能有所下降。

在代码生成方面，他们提到的变化是较新的GPT-4在输出中添加了非代码文本。

出于某种原因，作者没有评估代码的正确性。而只是检查代码是否可直接执行，也就是说，它是否构成了一个完整、有效的程序。

所以，新模型试图更有帮助的做法反而对其不利。

不仅如此，他们评估数学问题的方式更是奇怪。

500道是/否问题，但正确答案始终是「是」

用作测试的数学问题，是「17077是质数吗」这样的形式。

然而，作者选的500个数字，都是质数！

事实证明，在大多数情况下，没有一个模型真正执行了检查数字是否有除数的算法——它们只是假装这么做了。

也就是说，他们开始推理，然后直接跳到了最后。

下面是作者数据中的一个回应片段（GPT-4的三月快照）：

Narayanan是普林斯顿大学计算机科学教授，兼信息技术政策中心主任。

Narayanan的研究集中在数字技术，尤其是AI对社会的影响，和Kapoor是合作关系。

Arvind Narayanan是普林斯顿大学计算机科学教授和信息技术政策中心主任。

他曾与人合著过一本关于公平与机器学习的教科书，目前正在与Kapoor合著一本关于AI「蛇油」的书。

他领导了普林斯顿网络透明与问责项目，揭示公司如何收集和使用用户的个人信息。Narayanan的研究是最早表明机器学习如何反映文化成见的研究之一，他的博士研究表明了去身份化的根本局限性。

Narayanan曾获得过总统科学家和工程师早期职业奖 (PECASE)，两次获得隐私增强技术奖 (Privacy Enhancing Technologies Award)，三次获得决策者隐私论文奖 (Privacy Papers for Policy Makers Award)。

网友热议

英伟达科学家Jim Fan表示，我们中的许多从业人员都认为，GPT-4会随着时间的推移而退化。

但是，GPT-4为什么会退化，我们又能从中学到什么呢？以下是我的想法：

还有网友表示，没错，他们有可能在操纵模型，决定让哪个专家参与进来。削减成本总是一个好选择。

不幸的是，除非OpenAI解释发生了什么，否则我们无法知道。但正如你所说，他们否认质量变差了。

我也注意到了同样的情况。我目前的工作流是必应（虽然也是GPT，但有更多的数据和研究驱动）、GPT-4和Claude 2的组合，后者最近更优先。

在我看来，这就是开源模型会获胜的原因。

参考资料：

https://arxiv.org/abs/2307.09009

https://twitter.com/drjimfan/status/1681716564335394817?s=46&t=iBppoR0Tk6jtBDcof0HHgg

https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time

1

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

哪些工作会被AI取代？ChatGPT和专家们给出了相似答案

2023-07-28 12:10

启明创投报告：2024年中国将出现比肩GPT-4的大模型

2023-07-28 11:47

相关文章

专访王小川|曾预言过ChatGPT方向，年内推出中国版ChatGPT PRO..

ChatGPT引燃了一轮AI创业潮，无数头顶光环的企业家入局，王小川也是其中..

法媒关注中国国产ChatGPT

据《费加罗报》8月31日报道，百度发布的“中国版ChatGPT”聊天机器人文心..

中国版ChatGPT正在血洗职场：你的饭碗还能端多久？

"我用DeepSeek写周报被主管连夸三天，现在慌得睡不着觉。"凌晨2点，某互..

荐书丨《ChatGPT来了：语言科学如何看待ChatGPT》

ChatGPT来了基本信息副标题：语言科学如何看待ChatGPT作者: 杨旭 / 罗仁..

ChatGPT vs DeepSeek - 中文语法推理

问题：“你这铺馆没字号，就叫狗不理吧。 ” 这句话当中的 “就” 是个介..

ChatGPT时代语料库与术语库建设与应用工作坊

戴光荣博士，广东外语外贸大学教授，原福建工程学院人文学院院长，福建省..

“请不要对我有过高的期望，我仅是一个AI模型”丨对话ChatGPT..

当地时间2023年2月1日，瑞士高中教师参加了关于ChatGPT的研讨会。（视觉..

新闻可信度评估机构：ChatGPT或成传播网络谣言最强工具..

由OpenAI开发的人工智能聊天工具ChatGPT在全球引发广泛关注，众多用户尝..

对话调教ChatGPT，居然变成在线犯罪指南！

关于作者

加勒比海盗..(普通会员)

文章

832

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

02

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

03

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

2023/07/18

04

上海女家长陪睡校长，不雅聊天记录曝光！真是三观尽毁

2023/06/19

05

介绍一个能够免费使用国内chatgpt的插件wetab

2023/04/27

标签云

成员 网址收录40387 企业收录2981 印章生成231910 电子证书1025 电子名片60 自媒体46877

@2022 All Rights Reserved

浙ICP备19035174号-7

1

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索