GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题-脚本导航

> 自媒体 > （AI）人工智能 > GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题

GPT-4数学能力大蹦极！OpenAI爆火研究「过程监督」突破78.2%难题

来源：新智元

2023-07-08 11:43:56

515

管理

编辑：编辑部

【新智元导读】chatgpt为人诟病的「数学智障」问题，有望彻底攻克！OpenAI最新研究发现，利用「过程监督」可以大幅提升GPT模型的数学能力，干掉它们的幻觉。

ChatGPT自发布以来，数学能力饱受诟病。

就连「数学天才」陶哲轩曾表示，GPT-4在自己的数学专业领域，并没有太多的增值。

怎么办，就一直让ChatGPT做个「数学智障」么？

OpenAI在努力——为了提升GPT-4的数学推理能力，OpenAI团队用「过程监督」（PRM）训练模型。

让我们一步一步验证！

此外，OpenAI发现「过程监督」在对齐上有很大的价值——训练模型产生人类认可的思维链。

最新研究当然少不了Sam Altman的转发，「我们的Mathgen团队在过程监督上取得了非常令人振奋的结果，这是对齐的积极信号。」

如图显示了所选解决方案中，取得正确最终答案的百分比，作为所考虑解决方案数量的函数。

「过程监督」奖励模型不仅在整体上表现更好，而且随着考虑每个问题的更多解决方案，性能差距也在扩大。

这表明，「过程监督」奖励模型更加可靠。

真正（TP）

先来简化个三角函数公式。

这个具有挑战性的三角函数问题，需要以一种不明显的顺序应用几个恒等式。

但是大多数解决尝试都失败了，因为很难选择哪些恒等式实际上是有用的。

虽然GPT-4通常不能解决这个问题，只有0.1%的解决方案尝试实现正确答案，但奖励模型正确地识别出这个解决方案是有效的。

真负（TN）

在步骤7中，GPT-4试图简化一个表达式，但尝试失败。奖励模型发现了这个错误。

在步骤11中，GPT-4犯了一个简单的计算错误。同样被奖励模型发现。

GPT-4在步骤12中尝试使用差平方公式，但这个表达式实际上并非差平方。

步骤8的理由很奇怪，但奖励模型让它通过了。然而，在步骤9中，模型错误地将表达式分解出因子。

奖励模型便纠出这个错误。

GPT-4在步骤9中犯了一个微妙的计数错误。

表面上，声称有5种方法可以交换同色的球（因为有5种颜色）似乎是合理的。

然而，这个计数低估了2倍，因为Bob有2个选择，即决定把哪个球给Alice。奖励模型被这个错误所欺骗。

马斯克说，我们需要的是TruthGPT

比如最近，一位美国律师在纽约联邦法院的文件中就引用了ChatGPT捏造出的案件，可能面临制裁。

OpenAI的研究者在报告中提到：“在需要多步骤推理的领域，这些幻觉尤其成问题，因为，一个简单的逻辑错误，就足以对整个解决方案造成极大的破坏。”

而且，减轻幻觉，也是构建一致AGI的关键。

怎么减少大模型的幻觉呢？一般有两种方法——过程监督和结果监督。

「结果监督」，顾名思义，就是根据最终结果给大模型反馈，而「过程监督」则可以针对思维链中的每个步骤提供反馈。

ChatGPT在数学方面超级弱。今天我试图解决一个四年级数学书上的数学问题。ChatGPT给了错误答案。我把我的答案和ChatGPT的答案，在perplexity AI、谷歌的答案，以及四年级的老师进行了核对。每个地方都可以确认，chatgpt的答案是错误的。

参考资料：

https://openai.com/research/improving-mathematical-reasoning-with-process-supervision

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

微软Bing Chat的GPT-4整合将为Windows 11带来更强的图像识别功能

2023-07-08 11:45

OpenAI更新GPT-4等模型，新增API函数调用，价格最高降75％

2023-07-08 11:42

相关文章

揭秘 OpenAI Agents SDK！为什么它会成为 AI 代理的未来？

AI 的进化正在进入一个新阶段。OpenAI 最近推出的 Responses API 和 Agen..

974亿！马斯克出手收购OpenAI

据美国《华尔街日报》10日报道，代理律师当天表示，世界首富、美国亿万富..

速递｜OpenAI 表示已训练出，在创意写作方面“非常出色”的AI..

图片来源：Unsplash周二，OpenAI CEO Sam Altman 在 X 平台上发帖称，公..

沟通的秘诀：掌握这几点，让你成为聊天高手！

沟通是人与人之间最重要的桥梁，但如何让沟通更有效、更愉快，却是一门学..

背下来，让对方舒服死的“高情商”聊天技巧

聊天翻车现场：你对别人掏心掏肺，对方却爱答不理，自己也是很生气？学会..

DeepSeek数据炸了：男女隐私聊天73%越界，床事绝缘秒变纯友谊..

在现实生活里，很多人可能并未清晰意识到隐私边界的存在。比如，有些男女..

国际乒联公布徐克与女运动员聊天记录

3月6日，国际乒联（ITTF）在发布的裁决文件中，明确指控教练兼前运动员徐..

VX聊天都有多欢乐

1、究竟哪个才是爸爸？3、爸爸肯定是爷爷亲生的6、妈和王阿姨达成了什么..

大家相亲的时候怎么聊天？

近日，我刷到一篇文章话题是:“大家相亲的时候是怎么聊天的？”我看了一..

关于作者

聚焦每日新资..(普通会员)

文章

902

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

02

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

03

DeepSeek 究竟是个啥？一文带你看明白

1个月前

04

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

2023/07/18

05

上海女家长陪睡校长，不雅聊天记录曝光！真是三观尽毁

2023/06/19

标签云

成员 网址收录40394 企业收录2981 印章生成234813 电子证书1036 电子名片60 自媒体46905

@2022 All Rights Reserved

浙ICP备19035174号-7

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索