> 自媒体 > (AI)人工智能 > OpenAI出手解决GPT-4数学推理:做对一步立刻奖励!直接拿下SOTA
OpenAI出手解决GPT-4数学推理:做对一步立刻奖励!直接拿下SOTA
来源:量子位
2023-06-21 11:58:47
335
管理

明敏 西风 发自 凹非寺

量子位 | 公众号 QbitAI

OpenAI一个简单的动作,让大模型数学能力直接达到SOTA。

而且直接开源论文数据集,包含80万个人类反馈标签!

这就是OpenAI的最新研究。基于GPT-4,他们微调了几个模型,分别采用不同的监督方法。

一种是传统的结果监督,只对最终正确答案进行奖励。

另一种则是过程监督,区别在于奖励增加,对每一个正确的推理步骤进行奖励。

结果这一点改变,让采用过程监督的模型Process Reward Model(PRM),可以解决MATH测试集代表子集中78%的问题,达到SOTA。

英伟达AI科学家Jim Fan大胆预测说,下一步OpenAI大概会用这种方法微调GPT-4。

OpenAI表示,这道题对于大模型来说还是比较有挑战性的,GPT-4也不太能搞定(只有0.1%的情况生成结果完全没问题)。而使用过程奖励是可以算出正确答案的。

这也是目前大语言模型比较饱受诟病的问题,容易产生逻辑错误,也被称为“幻觉”。

表现最明显的领域就是数学。

即便是先进如GPT-4,这类问题也难以避免。

而降低幻觉的出现,又被视为走向AGI的关键一步。

此前为检测幻觉所使用的是结果监督,基于最终结果提供反馈,仅仅奖励最终正确的答案。

但效果显然还不太行,所以OpenAI想了个新招,把这种奖励增加会怎么样?

于是他们提出了过程监督方法,针对思维链中的每个步骤提供反馈,奖励每个正确的推理步骤。

结果表明,用MATH数据集进行测试后:

过程监督模型能够解决MATH测试集代表子集的78%的问题。效果优于结果监督。

而且随着每个问题考虑的解决方案的数量增加,性能差距也逐渐增大,也说明了过程监督的奖励模型更加可靠。

△纵轴表示的是已解决问题百分比,红色线代表过程监督奖励模型(ORM),蓝色线代表结果监督奖励模型(PRM)

在测试中,过程监督有一个明显的优势:

可以准确指出解决问题的步骤中哪些是正确的,并且给出错误步骤的具体位置。

而这点在结果监督中,是具有挑战性的。

因此,在过程监督中,信用分配(credit assignment)更加容易。

而且在对齐方面,过程监督也优于结果监督。

因为过程监督会直接奖励模型,按照对齐的思维链进行操作,每个步骤都会更精确。

产生的结果可解释性也更高,因为它鼓励模型遵循经过人类批准的过程。

相比之下,基于结果的监督可能会出现奖励不对齐的过程,而且通常更难进行审查。

此外,大模型还经常遇到一个问题叫做对齐税(alignment tax)。也就是想让模型输出更安全,那性能就会有所下降。

而过程奖励,在数学领域能让这个对齐税,变成负的,即模型安全性和性能都保障。

总之,过程奖励这个小窍门,一次性解决了大模型数学推理方面的多个问题。

在实验结果方面,OpenAI还给出了多个实例。

比如有一些情况,GPT-4会出错,但是基于过程奖励的PRM能揪出问题。

最近有30名学生参加了一次考试。如果有20名学生考了80分,8名学生考了90分,2名学生得分为100分,那么这次考试的班级平均分是多少?

(问题不难,但要注意这是零样本学习,也就是说AI训练阶段从没见过同类问题。)

如果要求GPT-3直接写出“答案是几”,它会给出错误答案:8。

但加上让我们一步一步地思考这句“咒语”后,GPT-3就会先输出思考的步骤,最后给出正确答案:4!

而与之相呼应的是,这回OpenAI最新研究的论文题目就叫做《Let’s Verify Step by Step》。

论文地址:https://openai.com/research/improving-mathematical-reasoning-with-process-supervision

数据集:https://github.com/openai/prm800k

参考链接:[1]https://twitter.com/OpenAI/status/1663957407184347136[2]https://twitter.com/DrJimFan/status/1663972818160332800[3]https://twitter.com/_akhaliq/status/1663981726647894027

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
千万粉丝主播账号被封!深受中老年女性喜爱,曾被实名举报..
9月2日晚间,“秀才被封”话题冲上微博热搜榜首。据国是直通车报道,近日..
OpenAI 为开发者赋能、AI 风险成为焦点
过去的一周是人工智能领域不寻常的分屏时期。一方面,我看到 OpenAI 快速..
清华开源LLM中英双语对话语言模型ChatGLM2,效果能赶超ChatGPT?..
更强大的性能:ChatGLm2-6B 使用了 GLM 的混合目标函数,经过了 1.4T 中..
GPT-4引发市场关注! 概念股持续走强、多只AI主题基金表现亮眼..
自GPT-4推出后,其智能程度对比此前版本大大提升,引发市场的持续关注,C..
深度|文心一言和GPT-4.0有什么区别?
百度在3月16日发布了基于新一代大语言模型的生成式AI产品——文心一言,..
ChatGPT团队中,3个清华学霸,1个北大学霸,共9位华人
众所周知,美国硅谷其实有着众多的华人,哪怕是芯片领域,华为也有着一席..
谷歌推出“规模最大、能力最强”的人工智能模型Gemini与ChatGPT竞争..
文 | Britney Nguyen周三,谷歌在其人工智能聊天机器人"巴德"(Bard)中..
套路升级!亲友语音信不得了?
套路升级!亲友语音信不得了?“老同学,我微信转账不了,能转点钱吗?”..
Antiplagiarism发布新算法,可识别和标记ChatGPT生成的内容..
IT之家 5 月 16 日消息,Antiplagiarism 基于在自然语言处理(NLP)领域..
关于作者
乖乖(普通会员)
文章
366
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40329 企业收录2981 印章生成186232 电子证书794 电子名片49 自媒体20760

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索