> 自媒体 > (AI)人工智能 > GPT-4数学再提30分,代码解析器任督二脉被打开,数学能力登SOTA
GPT-4数学再提30分,代码解析器任督二脉被打开,数学能力登SOTA
来源:量子位
2023-08-26 15:45:05
434
管理

西风 发自 凹非寺

量子位 | 公众号 QbitAI

GPT-4数学能力还能更强!

新研究发现GPT-4代码解释器做题准确率与其使用代码的频率有关。

为此,研究人员提出新方法对症下药,直接将其数学能力拔至新SOTA:

在MATH数据集上,做题准确率从53.9%增加到了84.3%。

他们设计了3种不同的提示方法,限制GPT-4代码解析器使用代码的频率:

Prompt 1:完全不允许使用代码,输出完全依赖自然语言推理,禁止将代码合并到解决方案中。Prompt 2:只允许使用1次代码,也就是在生成解决方案时,只能在单个代码块内使用代码。Basic Prompt:没有限制,GPT-4代码解析器可以进行一系列推理步骤,每个步骤都可由文字 Python代码组成。

△MATH数据集中第712个中级代数问题。

CSV prompt:To solve the problem using code interpreter step by step, and please verify your answer using code interpreter.

通过上图这个例子可看出,在没有自我验证的情况下,模型生成了一个错误的答案。通过自我验证,模型纠正了错误并生成了正确的答案。

此外,鉴于CSV可以有效地验证问题的答案,研究人员又提出了验证引导加权多数投票(VW-voting)的方法,将自我验证结果集成到多数表决中,给予不同验证状态不同权重,使表决更可靠。

△在MMLU数据集上的表现

针对不同难度的题目(下图a)以及不同类型题目(下图b)的测试中,使用新方法后准确率都有了提升。

△每条曲线上的四个点分别对应于使用Prompt 1、Prompt 2、BasicPrompt、CSV Prompt得到的结果。

研究人员还发现GPT-4代码解析器的代码使用频率提高与准确率提高正相关。随着题目难度的增加,代码使用频率稳步上升。这说明在较难的数学问题上,更频繁地使用代码很重要。

此外,值得注意的是,尽管添加基于代码的自我验证可以提高每个单独题目类型的性能,但改进的程度也因题目类型而异,从7.6%到仅0.6%不等。

研究人员指出:

特别是几何问题的准确性仅提高了0.6%,原本GPT-4代码解析器的准确性也只有54.0%,在各个题目类型中属于较低的。这种差异可能是因为解决几何问题通常需要多模态,超出了本文研究范围。

论文传送门:https://arxiv.org/abs/2308.07921

参考链接:[1]https://twitter.com/_akhaliq/status/1691734872329699813?s=20[2]https://x.com/justfannet/status/1691983780498600376?s=46&t=iTysI4vQLQqCNJjSmBODPw

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
婆罗花开(普通会员)
文章
462
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40334 企业收录2981 印章生成192878 电子证书830 电子名片52 自媒体25496

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索