GPT-4数学再提30分，代码解析器任督二脉被打开，数学能力登SOTA-脚本导航

> 自媒体 > （AI）人工智能 > GPT-4数学再提30分，代码解析器任督二脉被打开，数学能力登SOTA

GPT-4数学再提30分，代码解析器任督二脉被打开，数学能力登SOTA

来源：量子位

2023-08-26 15:45:05

434

管理

西风发自凹非寺

量子位 | 公众号 QbitAI

GPT-4数学能力还能更强！

新研究发现GPT-4代码解释器做题准确率与其使用代码的频率有关。

为此，研究人员提出新方法对症下药，直接将其数学能力拔至新SOTA：

在MATH数据集上，做题准确率从53.9%增加到了84.3%。

他们设计了3种不同的提示方法，限制GPT-4代码解析器使用代码的频率：

Prompt 1：完全不允许使用代码，输出完全依赖自然语言推理，禁止将代码合并到解决方案中。Prompt 2：只允许使用1次代码，也就是在生成解决方案时，只能在单个代码块内使用代码。Basic Prompt：没有限制，GPT-4代码解析器可以进行一系列推理步骤，每个步骤都可由文字 Python代码组成。

△MATH数据集中第712个中级代数问题。

CSV prompt：To solve the problem using code interpreter step by step, and please verify your answer using code interpreter.

通过上图这个例子可看出，在没有自我验证的情况下，模型生成了一个错误的答案。通过自我验证，模型纠正了错误并生成了正确的答案。

此外，鉴于CSV可以有效地验证问题的答案，研究人员又提出了验证引导加权多数投票（VW-voting）的方法，将自我验证结果集成到多数表决中，给予不同验证状态不同权重，使表决更可靠。

△在MMLU数据集上的表现

针对不同难度的题目（下图a）以及不同类型题目（下图b）的测试中，使用新方法后准确率都有了提升。

△每条曲线上的四个点分别对应于使用Prompt 1、Prompt 2、BasicPrompt、CSV Prompt得到的结果。

研究人员还发现GPT-4代码解析器的代码使用频率提高与准确率提高正相关。随着题目难度的增加，代码使用频率稳步上升。这说明在较难的数学问题上，更频繁地使用代码很重要。

此外，值得注意的是，尽管添加基于代码的自我验证可以提高每个单独题目类型的性能，但改进的程度也因题目类型而异，从7.6%到仅0.6%不等。

研究人员指出：

特别是几何问题的准确性仅提高了0.6%，原本GPT-4代码解析器的准确性也只有54.0%，在各个题目类型中属于较低的。这种差异可能是因为解决几何问题通常需要多模态，超出了本文研究范围。

论文传送门：https://arxiv.org/abs/2308.07921

参考链接：[1]https://twitter.com/_akhaliq/status/1691734872329699813?s=20[2]https://x.com/justfannet/status/1691983780498600376?s=46&t=iTysI4vQLQqCNJjSmBODPw

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

微软尴尬：号称“更强”的Bing悄然加入GPT-4开关

被骗了？GPT-4 其实没有推理能力？！

相关文章

“中国ChatGPT争夺战”谁赢？

未来已来？作者 | 张凯旌编辑丨高岩来源 | 野马财经谁是兔年开市以来最火..

只要输入微信号就能查对方聊天记录，你信吗

本文素材来自于网络，若与实际情况不相符或存在侵权行为，请联系删除。近..

月入7亿！OpenAI首次披露商业化能力，CEO：营收年化超95亿！..

明敏发自凹非寺量子位 | 公众号 QbitAI风头正盛的OpenAI今年能进账多少..

ChatGPT叫好不叫座，用过的人居然只有这么少

如今，ChatGPT、生成式人工智能无疑是互联网上最为热门的词汇，如果没有..

实测ChatGPT，让它回复美国打压华为的原因，回复让我震惊..

不久前，我亲身经历了一段令人兴奋的时光，深入研究并实测了ChatGPT，这..

蒂姆·库克证实苹果正在研究ChatGPT式的人工智能

苹果公司首席执行官蒂姆-库克（Tim Cook）对英国媒体表示，公司"当然"正..

消息称ChatGPT再次大面积封号

从昨天开始，许多人表示，自己的ChatGPT plus账号被封了。来自OpenAI的邮..

天心PLM产品生命周期管理系统介绍ChatAI语言生成的PLM系统介绍..

PLM（Product Lifecycle Management）产品生命周期管理系统是一种集成化..

精灵“玄鸟” 解幂开函，首款基于GPT技术建模机器人上线..

旅美20年国宝熊猫“乐乐”病逝，“丫丫”惨遭虐待。14亿人都在等它回家。..

关于作者

婆罗花开(普通会员)

文章

462

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

聊天交友软件常用骗局（套路）交友需小心！

11个月前

02

微信聊天时，女人说“哼哼”，10个高情商回复

8个月前

03

OpenAI突发更新！GPT-3.5正式开放微调，人人可打造专属ChatGPT

10个月前

04

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

11个月前

05

介绍一个能够免费使用国内chatgpt的插件wetab

2023/04/27

标签云

成员 网址收录40334 企业收录2981 印章生成192878 电子证书830 电子名片52 自媒体25496

@2022 All Rights Reserved

浙ICP备19035174号-7

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索