GPT-4推理太离谱！大学数理化总分没过半，21类推理题全翻车-脚本导航

> 自媒体 > （AI）人工智能 > GPT-4推理太离谱！大学数理化总分没过半，21类推理题全翻车

GPT-4推理太离谱！大学数理化总分没过半，21类推理题全翻车

来源：新智元

2023-09-10 20:49:07

600

管理

编辑：编辑部

【新智元导读】「地表最强」GPT-4在推理问题中接连出错！MIT校友，以及UCLA华人一作的最新研究引众多网友围观。

GPT-4根本不会推理！

近来，有两篇研究称，GPT-4在推理方面表现不尽人意。

来自MIT的校友Konstantine Arkoudas，在21种不同类型推理集中，对GPT-4进行了评估。

然后，对GPT-4在这些问题上的表现进行了详细的定性分析。

研究发现，GPT-4偶尔会展现出「最强大脑」的天赋，但目前来看，GPT-4完全不具备推理能力。

论文地址：https://arxiv.org/pdf/2307.10635.pdf

研究人员引入了一个大学科学问题解决基础SCIBENCH，其中包含2个数据集：开放数据集，以及封闭数据集。

通过对GPT-4和GPT-3.5采用不同提示策略进行深入研究，结果显示，GPT-4成绩平均总分仅为35.8%。

这项研究同样再次引起马库斯的关注：

关于数学、化学和物理推理的系统调查，结果显示，目前的LLM无法提供令人满意的性能......没有一种提示策略明显优于其他策略。

2. 简单计数

虽然具体计数并不一定是一种推理活动，但它肯定是任何具有一般能力推理系统的必备条件。

在这里，给GPT-4一个命题变量，并在它前面加上27个否定符号，要求它计算否定符号的个数。

对于我们来讲，这简直轻而易举，尤其是否定符号是间隔5个写成的，并且有5组，最后一对否定符号紧随其后。

然而，GPT-4却给出了「28个」答案。

3. （医学）常识

当前，我们可以将常识性论证视为，从给定信息加上未说明的条件（默认的、普遍接受的背景知识）中得出的简单推理。

在这种特殊情况下，常识性知识就是「人在死前是活着的，死后就不会再活着」这样的命题。

比如，当你问GPT-4：Mable上午9点的心率为75 bpm，下午7点的血压为120/80。她于晚上11点死亡。她中午还活着吗？

值得注意的是，GPT-4认识到，P(x)实际上并不包含Q(x)，并提出了x有可能是负数偶数，「不排除存在其他给定条件的模型」。

其实不然，一个反模型（countermodel）必须满足所有给定的条件，同时证伪结论。

此外，仅仅几句话之后， GPT-4就声称P(x)在给定的解释下确实蕴含Q(x)，这与它自己之前的说法相矛盾。

显然，这三个句子都是共同可满足的，一个简单的模型是具有P(a1)、Q(a1)、¬P(a2) 和 ¬Q(a2)的域{a1, a2}，然而GPT-4得出的结论确与之相反。

6. 简单图着色

首先考虑一个没有解决方案的图着色问题。

不难发现，对于这个问题中描述的图形，两种颜色是不足以满足问题中描述的图（例如，顶点0、2和4形成了一个簇，因此至少需要3种颜色）。

9. 简单安排计划

在时间安排问题上，GPT-4同样出错了。

上下滑动查看全部

10. 罗素悖论

罗素理发师悖论是指，存在一个理发师b，他为且仅为那些不给自己刮胡子的人刮胡子。

这句话的否定是一个同义反复，很容易用一阶逻辑推导出来。

如果我们把R(a,b)理解为a被b刮胡子，那么我们就可以提出这个同义反复，并要求GPT-4证明或反证它，如下面prompt所示：

如果存在这样一个理发师x，那么对于所有y，我们将有R(y,x) ∼ R(y,y)，因此用x代替y将得到R(x，x) ∼ R(x,x)，这是矛盾的。

GPT-4对所给句子的结构和需要做的事情的理解无可挑剔。然而，随后的案例分析却糊里糊涂。

有五个积木从上往下堆叠：

1. 从上往下数第二个积木是绿色的

2. 从上往下数第四个积木不是绿色的

在这些条件成立的情况下，证伪或证明以下结论：在一个非绿色积木的正上方，有一个绿色积木。

首先它在证明猜想时，就已经弄错了证明的策略——PT-4假定了两种特殊情况来进行推理。

此外，GPT-4在自己的推理中已经得出了结论（虽然是错的），但在回答时仍然告诉用户问题没有被解决。而这体现的便是模型的内部不一致性问题。

GPT-4第一次给出的答案是右边，但作者指出了它的错误，虽然从地图上来看，位于马萨诸塞州的波士顿的确在南达科他州的右边，但这里还有一个附加条件：身体的朝向是得克萨斯州。

这意味着波士顿在作者的左边。

之后，GPT-4在回答波士顿与南达科他州高低位置时，出现了更严重的问题：它在同一个回答中给出了两种矛盾的描述。

桌上放着7张牌，每张牌一面写着数字，另一面是单色色块。这些牌的正面显示的是50、16、红色、黄色、23、绿色、30。

要判断「如果一张牌正面显示4的倍数，则背面颜色为黄色」这个命题的真假，你需要翻转哪些牌?

错误标记为红色，更正内容为紫色

对此，研究中引入了一个大学水平的科学问题基准SCIBENCH。

其中，「开放数据集」包括从大学课程广泛使用的教科书中收集的5个问题，涵盖了基础物理、热力学、经典力学、量子化学、物理化学、微积分、统计学和微分方程。

开放教科书问题摘要（包括问题数量的比例，以及有详细解决方案的比例）

另一个是「封闭数据集」，为了模拟真实世界的评估，其中包含了计算机科学和数学三门大学课程的7套期中和期末考试题。

开放数据集中准确率的结果

在使用CoT提示外部工具最强配置下，GPT-4在开放式数据集上取得了35.80%的平均分，在封闭数据集上取得了51.57%的平均分。

这些结果表明，在未来的LLM中，GPT-4有相当大的改进潜力。

考试数据集上零样本学习下总分的实验结果

为了全面了解LLM在科学问题解决中的局限性，研究人员提出了一种全新的「自我完善」的方法，以发现LLM所做解答中的不足之处。

便是如下的「评估协议」。

首先，将正确的解决方案与LLM生成的解决方案进行比较，并在人工标注员的协助下，总结出成功解决科学问题所需的10项基本技能。

具体包括：逻辑分解和分析能力；识别假设；空间感知；因果推理；问题演绎；抽象推理；科学素养；代码转换；逻辑推理；计算能力。

随后，团队采用了一种由LLM驱动的自我评价方法，对每个实验配置下基准LLM所做的解决方案中，缺乏的技能进行自动分类。

6种设置下GPT-3.5在文本数据集上的错误概况，揭示了其10种基本解决问题能力的缺陷分布

最后，通过分析发现：

(1) 虽然CoT显著提高了计算能力，但在其他方面的效果较差；

(2) 使用外部工具的提示可能会损害其他基本技能；

(3) 少样本学习并不能普遍提高科学问题解决能力。

总之，研究结果表明，当前大型语言模型在解决问题能力方面依旧很弱，并且在各种工具帮助下，依旧存在局限性。

参考资料：

https://www.preprints.org/manuscript/202308.0148/v2

https://arxiv.org/pdf/2307.10635.pdf

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

GPT-4一天顶6个月，OpenAI发布重磅升级，或大量取代人类审核员

2023-09-10 20:50

Chatgpt神级问答——宇宙与生命起源

2023-09-10 20:22

相关文章

比亚迪营收首超特斯拉，市值却只有后者 1/6

比亚迪又达成了一个「里程碑」。10 月 30 日晚，比亚迪发布了 2024 年三..

一家抵五家总和！前三季度比亚迪净利252亿遥遥领先，新能源车成盈利风向标..

前三季度车企财报卖新能源车更赚钱规模效应明显的汽车行业一直是“销量即..

比亚迪暂缓加拿大上市进程，美国电动新势力股价暴跌｜海外日报..

「 Top 3 News 」比亚迪暂时搁置其在加拿大的上市计划要点：比亚迪，近日..

比亚迪单月卖50万辆，零跑冲击月销4万：“创纪录”成10月车市关键词..

导读：10月，诸多车企创下月度销量新纪录。（文/周盛明编辑/高莘）随着..

【选车】比亚迪纯电“小钢炮”海豹06GT选购指南

动力方面，提供单电机后驱和双电机四驱两种动力系统，CLTC工况下续航里程..

比亚迪三季度营收破两千亿，首超特斯拉！多家机构上调预期..

10月30日晚间，比亚迪（002594.SZ)发布了2024年前三季度报告。公告显示，..

2024比亚迪海豚动态评测——开始落后于竞争对手

2024 比亚迪海豚动态评测作为澳大利亚最实惠的新型电动汽车之一，比亚迪 ..

炸裂！刚刚，比亚迪发布，破50万辆！

而就在9月，比亚迪单月新能源车销量刚突破40万辆，达到419426辆，成为全..

油耗3字头，加速6.9秒，试驾体验2025款比亚迪汉DM-i

比亚迪汉在中国汽车发展史上应该算得上是拥有里程碑意义的车型。是它最早..

关于作者

清水大树(普通会员)

文章

935

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

02

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

03

DeepSeek 究竟是个啥？一文带你看明白

1个月前

04

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

2023/07/18

05

上海女家长陪睡校长，不雅聊天记录曝光！真是三观尽毁

2023/06/19

标签云

成员 网址收录40399 企业收录2981 印章生成237499 电子证书1052 电子名片60 自媒体50829

@2022 All Rights Reserved

浙ICP备19035174号-7

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索