> 自媒体 > (AI)人工智能 > GPT-4不知道自己错了, LLM新缺陷曝光,自我纠正成功率仅1%
GPT-4不知道自己错了, LLM新缺陷曝光,自我纠正成功率仅1%
来源:新智元
2023-11-22 14:37:51
322
管理

编辑:桃子 润

【新智元导读】GPT-4根本不知道自己犯错?最新研究发现,LLM在推理任务中,自我纠正后根本无法挽救性能变差,引AI大佬LeCun马库斯围观。

大模型又被爆出重大缺陷,引得LeCun和马库斯两位大佬同时转发关注!

简单来说,就是LLM在推理任务中,无法通过自我纠正的形式来改进输出,除非LLM在自我纠正的过程中已经知道了正确答案。

由ASU研究人员发表的两篇论文,驳斥了之前很多研究提出的方法「自我纠正」——让大模型对自己的输出的结果进行自我纠正,就能提高模型的输出质量。

论文地址:https://arxiv.org/abs/2310.12397

https://arxiv.org/abs/2310.01798

接下来,就具体来看看这两篇最新论文。

GPT-4「自我纠正」,输出结果反而更差

第一篇论文针对GPT-4进行研究,让GPT-4对图形着色问题提供解决方案,然后让GPT-4对于自己提出方案进行「自我纠正」。

同时,作者再引入一个外部的评估系统对GPT-4的直接输出,和经过了「自我纠正」循环之后的输出进行评价。

而且,研究人员发现,真正能提高输出准确性的不是LLM的「自我纠正」,而是外部独立验证器的反馈。

归根结底,还是在于LLM没有办法进行独立的验证,必须依赖外部的验证器给出的「正确答案」,才能有效地进行「自我纠正」。

「着色问题」表现不佳,LLM无法独立验证正确答案

研究设计框架

「着色问题」是非常经典的推理问题,即使难度不大,答案也足够多样性,而且答案的正确性很容易进行验证。

多样性的结果使得LLM的训练数据很难覆盖全,尽量避免了LLM的训练数据被污染的可能。

这些原因使得「着色问题」很适合用来研究LLM的推理能力,也很方便用来研究LLM在推理中「自我纠正」的能力。

研究人员构建了自己的数据集,使用GrinPy2来处理常见的图操作。每个图都是使用Erdos-Rényi方法( ˝p = 0.4)构造的。

一旦找到正确的答案,它就会被编译成标准的DIMACS格式,并附加上一个包含其预计算的色数(chromatic number)的注释。

对于接下来的实验,研究人员生成了100个实例,每个实例平均有24条边,分布在从10到17的节点数范围内——这一分布是因为经验显示,它是一个表现足够多变的范围。

研究人员使用的图例如下图1所示,这个流程包括LLM的第一次回复、该回复的返回提示(backprompt)以及最终正确的图色方案。

总的来说,这项研究的系统调查提供了初步证据,对于LLM作为迭代、自我批评框架内规划任务验证者的有效性提出质疑。

作者介绍

Subbarao Kambhampati

Subbarao Kambhampati是亚利桑那州立大学计算机科学教授。Kambhampati研究规划和决策中的基本问题,特别是受人类感知人工智能系统挑战的推动。

参考资料:

https://twitter.com/rao2z/status/1715800819239678013

https://twitter.com/GaryMarcus/status/1715804178470387736

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
微软 Office 携手 GPT-4.0,开启智能办公新时代
3 月 16 日,微软在线上举行了一场名为「用人工智能重塑生产力」的活动,..
前沿科技:用我与ChatGPT的对话来说明,工业4.0即将到来..
ChatGPT一经推出便迅速火爆全球,仅仅5天注册数量就超过百万,至2023年1..
妙龄女子声音甜美,男子着迷“裸聊”一时爽,不料被录屏敲诈..
来源|都市现场综合厦门台新闻中心未经授权 请勿转载近日,福建省厦门市..
阿拉丁中文网:重磅!OpenAI将推出ChatGPT企业版,速度是4的两倍..
重磅消息来了!OpenAI凌晨宣布推出迄今为止最强大的 ChatGPT 版本——Cha..
清华大学出品的AI神器,让你的工作学习更高效~#chatgpt..
清华出品。国外爆,那咱们国内的AI神器担当,必须得是清华出品。可以通过..
(保姆级教程)GPT注册+美元卡+4.0开通+1.6万GPTs提示词
从零开始,手把手教你免手机号注册,低费率美元卡开通,4.0开通学会之后..
ChatGPT用户账号被黑客入侵,数据在暗网出售
参考消息据埃及《金字塔报》网站6月20日报道,网络安全公司IB集团(Group..
ChatGPT之父出席国会听证:GPT是工具不是生物,对AI应精确监管..
OpenAI首席执行官Sam Altman首次出席美国国会听证会。OpenAI首席执行官Sa..
洗白?leave女友回应:聊天记录是我伪造的,是我用他的号发的..
前几天EDG和BLG的比赛结束后,AD选手leave因为赛场上表现不佳,受到了很..
关于作者
经典好看视频..(普通会员)
文章
365
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40329 企业收录2981 印章生成186854 电子证书796 电子名片49 自媒体20954

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索