研究人员通过使用新的提示方法,利用GPT-4代码解释器在MATH基准上实现了新的最先进水平(SOTA)。
研究概述团队在诸如MATH这样的数学推理数据集上测试了OpenAI的最新AI系统GPT-4代码解释器(GPT4-Code)。据研究人员称,该数据集被认为是最具挑战性的数学问题集。
他们发现,GPT4-Code在MATH上的准确率为69.7%,明显优于GPT-4的42.2%,也大大超过了之前的最先进性能53.9%。
通过使用不同的提示,团队在GPT4代码中引入了对代码使用频率的不同约束,并发现“其成功主要归因于其在生成和执行代码、评估代码执行的输出以及在接收到不合理输出时纠正其解决方案方面的强大技能。”
两种方法大大提高了GPT-4代码解释器的数学能力基于这些发现,研究人员通过推动更频繁的代码执行来进一步提高GPT4代码的数学能力,因为这可以提高性能,尤其是在更困难的问题上。
他们提出了两种方法:
- 基于代码的显式自我验证。这会提示GPT-4代码解释器用代码验证其答案。如果错误,它将继续尝试,直到验证成功。
- 验证引导的加权多数投票。这将验证结果合并到多数投票中。被验证为真实的答案被赋予更高的权重,反映了更大的信心。
实验表明,这些方法将MATH的准确率提高到84.3%,超过了GPT4-Code的69.7%。关键在于通过增加代码使用来利用他们的自我验证能力。
方法可以为LLaMA 2等开源模型产生更准确的数据集研究人员还在数学和科学问题的MMLU基准上评估了他们的技术。同样,它提高了GPT-4代码解释器在所有数据集上的准确率,证明了其广泛适用性。
团队现在希望将他们关于代码使用频率的重要作用以及他们的两种方法应用到GPT-4之外的其他大型语言模型(LLM)。他们还计划使用它们创建更准确的数据集,其中将包括“基于代码的详细逐步解决方案生成和基于代码的验证,这有助于改善像LLaMA 2这样的开源LLM”。
总结- 研究人员在具有挑战性的MATH基准上测试了OpenAI的GPT-4代码解释器,并实现了新的最先进准确率69.7%,远超GPT-4的42.2%。
- 他们通过使用两种方法:显式基于代码的自我验证和验证引导的加权多数投票,进一步提高了AI系统的数学能力,将MATH准确率提高到新的最先进水平84.3%。
- 实验表明这些方法具有广泛的适用性,团队计划将他们的发现应用于其他大型语言模型,并为开源AI系统创建更准确的数据集。
相关文章
猜你喜欢