> 自媒体 > (AI)人工智能 > GPT-4代码解释器粉碎数学基准,达到新的最先进水平
GPT-4代码解释器粉碎数学基准,达到新的最先进水平
来源:新知工坊
2023-08-23 16:58:51
400
管理

研究人员通过使用新的提示方法,利用GPT-4代码解释器在MATH基准上实现了新的最先进水平(SOTA)。

研究概述

团队在诸如MATH这样的数学推理数据集上测试了OpenAI的最新AI系统GPT-4代码解释器(GPT4-Code)。据研究人员称,该数据集被认为是最具挑战性的数学问题集。

他们发现,GPT4-Code在MATH上的准确率为69.7%,明显优于GPT-4的42.2%,也大大超过了之前的最先进性能53.9%。

通过使用不同的提示,团队在GPT4代码中引入了对代码使用频率的不同约束,并发现“其成功主要归因于其在生成和执行代码、评估代码执行的输出以及在接收到不合理输出时纠正其解决方案方面的强大技能。”

两种方法大大提高了GPT-4代码解释器的数学能力

基于这些发现,研究人员通过推动更频繁的代码执行来进一步提高GPT4代码的数学能力,因为这可以提高性能,尤其是在更困难的问题上。

他们提出了两种方法:

- 基于代码的显式自我验证。这会提示GPT-4代码解释器用代码验证其答案。如果错误,它将继续尝试,直到验证成功。

- 验证引导的加权多数投票。这将验证结果合并到多数投票中。被验证为真实的答案被赋予更高的权重,反映了更大的信心。

实验表明,这些方法将MATH的准确率提高到84.3%,超过了GPT4-Code的69.7%。关键在于通过增加代码使用来利用他们的自我验证能力。

方法可以为LLaMA 2等开源模型产生更准确的数据集

研究人员还在数学和科学问题的MMLU基准上评估了他们的技术。同样,它提高了GPT-4代码解释器在所有数据集上的准确率,证明了其广泛适用性。

团队现在希望将他们关于代码使用频率的重要作用以及他们的两种方法应用到GPT-4之外的其他大型语言模型(LLM)。他们还计划使用它们创建更准确的数据集,其中将包括“基于代码的详细逐步解决方案生成和基于代码的验证,这有助于改善像LLaMA 2这样的开源LLM”。

总结

- 研究人员在具有挑战性的MATH基准上测试了OpenAI的GPT-4代码解释器,并实现了新的最先进准确率69.7%,远超GPT-4的42.2%。

- 他们通过使用两种方法:显式基于代码的自我验证和验证引导的加权多数投票,进一步提高了AI系统的数学能力,将MATH准确率提高到新的最先进水平84.3%。

- 实验表明这些方法具有广泛的适用性,团队计划将他们的发现应用于其他大型语言模型,并为开源AI系统创建更准确的数据集。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
关于作者
兰花草(普通会员)
文章
591
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40369 企业收录2981 印章生成216707 电子证书945 电子名片57 自媒体34015

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索