> 自媒体 > (AI)人工智能 > GPT-4数学能力大蹦极!OpenAI爆火研究「过程监督」突破78.2%难题
GPT-4数学能力大蹦极!OpenAI爆火研究「过程监督」突破78.2%难题
来源:新智元
2023-07-08 11:43:56
396
管理

编辑:编辑部

【新智元导读】chatgpt为人诟病的「数学智障」问题,有望彻底攻克!OpenAI最新研究发现,利用「过程监督」可以大幅提升GPT模型的数学能力,干掉它们的幻觉。

ChatGPT自发布以来,数学能力饱受诟病。

就连「数学天才」陶哲轩曾表示,GPT-4在自己的数学专业领域,并没有太多的增值。

怎么办,就一直让ChatGPT做个「数学智障」么?

OpenAI在努力——为了提升GPT-4的数学推理能力,OpenAI团队用「过程监督」(PRM)训练模型。

让我们一步一步验证!

此外,OpenAI发现「过程监督」在对齐上有很大的价值——训练模型产生人类认可的思维链。

最新研究当然少不了Sam Altman的转发,「我们的Mathgen团队在过程监督上取得了非常令人振奋的结果,这是对齐的积极信号。」

如图显示了所选解决方案中,取得正确最终答案的百分比,作为所考虑解决方案数量的函数。

「过程监督」奖励模型不仅在整体上表现更好,而且随着考虑每个问题的更多解决方案,性能差距也在扩大。

这表明,「过程监督」奖励模型更加可靠。

真正(TP)

先来简化个三角函数公式。

这个具有挑战性的三角函数问题,需要以一种不明显的顺序应用几个恒等式。

但是大多数解决尝试都失败了,因为很难选择哪些恒等式实际上是有用的。

虽然GPT-4通常不能解决这个问题,只有0.1%的解决方案尝试实现正确答案,但奖励模型正确地识别出这个解决方案是有效的。

真负(TN)

在步骤7中,GPT-4试图简化一个表达式,但尝试失败。奖励模型发现了这个错误。

在步骤11中,GPT-4犯了一个简单的计算错误。同样被奖励模型发现。

GPT-4在步骤12中尝试使用差平方公式,但这个表达式实际上并非差平方。

步骤8的理由很奇怪,但奖励模型让它通过了。然而,在步骤9中,模型错误地将表达式分解出因子。

奖励模型便纠出这个错误。

GPT-4在步骤9中犯了一个微妙的计数错误。

表面上,声称有5种方法可以交换同色的球(因为有5种颜色)似乎是合理的。

然而,这个计数低估了2倍,因为Bob有2个选择,即决定把哪个球给Alice。奖励模型被这个错误所欺骗。

马斯克说,我们需要的是TruthGPT

比如最近,一位美国律师在纽约联邦法院的文件中就引用了ChatGPT捏造出的案件,可能面临制裁。

OpenAI的研究者在报告中提到:“在需要多步骤推理的领域,这些幻觉尤其成问题,因为,一个简单的逻辑错误,就足以对整个解决方案造成极大的破坏。”

而且,减轻幻觉,也是构建一致AGI的关键。

怎么减少大模型的幻觉呢?一般有两种方法——过程监督和结果监督。

「结果监督」,顾名思义,就是根据最终结果给大模型反馈,而「过程监督」则可以针对思维链中的每个步骤提供反馈。

ChatGPT在数学方面超级弱。今天我试图解决一个四年级数学书上的数学问题。ChatGPT给了错误答案。我把我的答案和ChatGPT的答案,在perplexity AI、谷歌的答案,以及四年级的老师进行了核对。每个地方都可以确认,chatgpt的答案是错误的。

参考资料:

https://openai.com/research/improving-mathematical-reasoning-with-process-supervision

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
Open AI人心涣散!管理层集体与Altman“隔空示好”,已有数十名员工连夜辞..
Altman遭“开除”引发持续动荡,Open AI已经是“人心涣散”。目前OpenAI..
多国要调查ChatGPT,TA碰了什么红线?
中新网4月8日电 (中新财经 彭婧如)从全球爆火到被多国“围堵”,ChatGPT..
继ChatGPT之后,百度PLATO出炉,网友:智能抬杠机器人
众所周知,OpenAI公司推出了ChatGPT人工智能聊天机器人,在网络上有着不..
我做个测试,咋就裸聊了?江苏一男子裸聊被骗14万元..
来源:中国警察网超火的MBTI十六种人格测试你还不知道自己是哪种人格吗近..
财经早报:一日连破五关,人民币汇率创近四个月新高,“ChatGPT之父”被解..
【要闻盘点】一日连破五关 人民币汇率创近四个月新高7.21、7.20、7.19、7..
动嘴操控“终结者”!谷歌打造最强chatgpt机器人
我们知道,在掌握了网络中的语言和图像之后,大模型终究要走进现实世界,..
ChatGPT聊天机器人如何使用
在当前人工智能快速发展的时代,聊天机器人已成为我们日常生活中不可或缺..
女人和喜欢的人聊天是什么样的
图片来自网络,图文无关一:主动找话题有时候我们觉得一个女人高冷,不说..
open ai刚刚发布的开发者大会,带给我们什么样的震撼
看完头条号@艺圆艺术的视频,做成了文本。几位网友希望我发到头条,分享..
关于作者
聚焦每日新资..(普通会员)
文章
405
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40329 企业收录2981 印章生成186457 电子证书794 电子名片49 自媒体20815

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索