GPT-4 推理太离谱！大学数理化总分没过半马库斯：AGI 太遥远-脚本导航

> 自媒体 > （AI）人工智能 > GPT-4 推理太离谱！大学数理化总分没过半马库斯：AGI 太遥远

GPT-4 推理太离谱！大学数理化总分没过半马库斯：AGI 太遥远

来源：IT手机世界

2023-08-15 15:56:47

545

管理

GPT-4 根本不会推理！

近来，有两篇研究称，GPT-4 在推理方面表现不尽人意。

来自 MIT 的校友 Konstantine Arkoudas，在 21 种不同类型推理集中，对 GPT-4 进行了评估。然后，对 GPT-4 在这些问题上的表现进行了详细的定性分析。

研究发现，GPT-4 偶尔会展现出「最强大脑」的天赋，但目前来看，GPT-4 完全不具备推理能力。

论文地址：https://www.preprints.org/manuscript/202308.0148/v2

研究一出，引来众多网友围观。

马库斯表示，「如果这是真的 —— 正如我早就说过的那样 —— 我们离 AGI 还差得远呢。我们可能需要进行大量的重新校准：没有推理就不可能有 AGI」。

在这个简短的输出中，出现大量惊吓下巴的错误。

GPT-4 一开始就谎称图形是完全的（显然不是，例如顶点 2 和 3 之间没有边）。

此外，显而易见的是，如果图形真是完全的，那么就不可能用 2 种颜色来着色，因为一个有 6 个顶点的完全图形至少需要 6 种颜色。

换句话说，GPT-4 的说法不仅是错误的，而且是前后矛盾的：一会儿告诉我们（错误）这 6 顶点图形是完全的，这意味着不可能用 2 种颜色给它着色，一会儿又提供了一种双色「解决方案」。

值得注意的是，GPT-4 之所以表现如此糟糕，并不是因为它没有掌握足够的图形知识或数据。

当研究人员要求 GPT-4 对「完全图」的了解时，它滔滔不绝地说出了「完全图」的正确定义，以及一长串关于 K_n（有 n 个顶点的完全图）的结果。

显然，GPT-4 已经记住了所有这些信息，但却无法在新条件中应用。

7. 子集和

S = {2, 8, 6, 32, 22, 44, 28, 12, 18, 10, 14}。那么 S 有多少个子集的总和是 37？

这个问题中，S 的子集都是偶数，而偶数之和不可能是奇数，因此答案为 0。

然而，GPT-4 没有停下来考虑 S 包含的内容，而是反射性地生成它认为对这个问题合适的答案，然后继续「幻化」出一个答案「4」。

8. 初级离散数学

告诉 GPT-4 A × B 代表集合 A 和 B 的笛卡尔积、从 A 到 B 的关系 R 是 A × B 的子集，以及 & 代表集合交集之后要求它证明或证伪：

其中 R1 和 R2 是从 A 到 B 的二元关系，dom (R) 表示二元关系 R 的域。

需要子集关系在 (2) 的两个方向上都成立，但它只在从左到右的方向上成立。另一个方向的反例很容易找到（例如，取 A = {(1, 2)} 和 B = {(1,3)}）。

然而，GPT-4 却推断这是成立的，显然不正确。

10. 罗素悖论

罗素理发师悖论是指，存在一个理发师 b，他为且仅为那些不给自己刮胡子的人刮胡子。

这句话的否定是一个同义反复，很容易用一阶逻辑推导出来。

如果我们把 R (a,b) 理解为 a 被 b 刮胡子，那么我们就可以提出这个同义反复，并要求 GPT-4 证明或反证它，如下面 prompt 所示：

如果存在这样一个理发师 x，那么对于所有 y，我们将有 R (y,x) ∼ R (y,y)，因此用 x 代替 y 将得到 R (x，x) ∼ R (x,x)，这是矛盾的。

GPT-4 对所给句子的结构和需要做的事情的理解无可挑剔。然而，随后的案例分析却糊里糊涂。

有五个积木从上往下堆叠：

1. 从上往下数第二个积木是绿色的

2. 从上往下数第四个积木不是绿色的

在这些条件成立的情况下，证伪或证明以下结论：在一个非绿色积木的正上方，有一个绿色积木。

首先它在证明猜想时，就已经弄错了证明的策略 ——PT-4 假定了两种特殊情况来进行推理。

此外，GPT-4 在自己的推理中已经得出了结论（虽然是错的），但在回答时仍然告诉用户问题没有被解决。而这体现的便是模型的内部不一致性问题。

GPT-4 第一次给出的答案是右边，但作者指出了它的错误，虽然从地图上来看，位于马萨诸塞州的波士顿的确在南达科他州的右边，但这里还有一个附加条件：身体的朝向是得克萨斯州。

1. 住在 Dreadbury Mansion 的某人杀了 Agatha 姨妈。

2. Dreadbury Mansion 中唯一的居住者是 Agatha 姨妈、管家和 Charles。

3. 杀人犯总是讨厌他的受害者，并且他的财富不会比受害者多。

4. Charles 不讨厌 Agatha 姨妈讨厌的人。

5. Agatha 姨妈讨厌所有人，除了管家。

6. 管家讨厌所有不比 Agatha 姨妈富有的人。

7. 管家讨厌 Agatha 姨妈讨厌的所有人。

8. 没有人讨厌所有人。

9. Agatha 姨妈不是管家。

正确的答案是 Agatha 姨妈杀了自己。

首先，根据条件 5，Agatha 姨妈必须讨厌她自己，因为她讨厌所有除了管家以外的人。

因此，根据条件 4，得出 Charles 不讨厌她，所以他不可能杀了她。

根据条件 5 和 7，管家不可能讨厌他自己，因为如果他讨厌自己的话，条件 8 就不成立了，他会讨厌所有人。

根据条件 6，得出管家比 Agatha 姨妈更富有，否则他会讨厌自己，这与前面我们得出的他不讨厌自己相矛盾。

根据条件 3，管家也不会是凶手（第 3 个条件）。

15. 沃森选择任务（Wason selection task）

沃森选择任务是心理推理领域中的基本内容。

在一月份的论文中，GPT-3.5 就未能通过这个测试，本次研究中，GPT-4 的表现依旧不理想。

这些回答显示，GPT-4 不理解条件语句的语义。当 GPT-4 说卡片「50」和「30」必须翻开时，它似乎将条件误认为是充分必要条件。

而无论 GPT-4 的回答是对还是错，其内部的说法都是不一致的。

16. 熵

信息论的一个基本结论是：随机向量 Z 的熵上界不超过组成 Z 的随机变量的熵之和。

因此，下面问题的答案应该是「在任何情况下都不会」。

17. 简单编译器的正确性

最后给 GPT-4 的推理问题是最具挑战性的：证明一个简单表达式编译器的正确性。

这可能是因为它之前看过类似的证明，作者给出的例子是编程课程和教材中常见的练习类型。

然而，GPT-4 还是会出现一些细节上错误。

错误标记为红色，更正内容为紫色

对此，研究中引入了一个大学水平的科学问题基准 SCIBENCH。

其中，「开放数据集」包括从大学课程广泛使用的教科书中收集的 5 个问题，涵盖了基础物理、热力学、经典力学、量子化学、物理化学、微积分、统计学和微分方程。

开放数据集中准确率的结果

在使用 CoT 提示外部工具最强配置下，GPT-4 在开放式数据集上取得了 35.80% 的平均分，在封闭数据集上取得了 51.57% 的平均分。

这些结果表明，在未来的 LLM 中，GPT-4 有相当大的改进潜力。

考试数据集上零样本学习下总分的实验结果

为了全面了解 LLM 在科学问题解决中的局限性，研究人员提出了一种全新的「自我完善」的方法，以发现 LLM 所做解答中的不足之处。

便是如下的「评估协议」。

首先，将正确的解决方案与 LLM 生成的解决方案进行比较，并在人工标注员的协助下，总结出成功解决科学问题所需的 10 项基本技能。

具体包括：逻辑分解和分析能力；识别假设；空间感知；因果推理；问题演绎；抽象推理；科学素养；代码转换；逻辑推理；计算能力。

随后，团队采用了一种由 LLM 驱动的自我评价方法，对每个实验配置下基准 LLM 所做的解决方案中，缺乏的技能进行自动分类。

6 种设置下 GPT-3.5 在文本数据集上的错误概况，揭示了其 10 种基本解决问题能力的缺陷分布

最后，通过分析发现：

（1）虽然 CoT 显著提高了计算能力，但在其他方面的效果较差；（2）使用外部工具的提示可能会损害其他基本技能；（3）少样本学习并不能普遍提高科学问题解决能力。

总之，研究结果表明，当前大型语言模型在解决问题能力方面依旧很弱，并且在各种工具帮助下，依旧存在局限性。

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

如何更有效地使用gpt-4？

2023-08-15 15:59

API调用上优于GPT-4，微软研发出Gorilla LLM

2023-08-15 15:53

相关文章

试驾全新福特Mustan-性能拉满的大玩具

驾控方面，在本活动中主打“漂移”。百公里加速5秒级的加速，2.3T的发动..

未来10年，5大汽车品牌或将挥手告别中国，想买这些车的避免踩坑..

在这个汽车工业飞速演进的时代，中国，这片充满活力与挑战的土地，已悄然..

2024年国际汽车新材料大会落幕

光明网讯5月31日，由中国汽车工程学会、汽车轻量化技术创新战略联盟、芜..

全面拥抱智能化试驾上汽大众途观L Pro

【太平洋汽车评测频道】一代神车途观上新啦！这也是途观的第三代车型，..

新车 | 50万元级别插混中大型SUV 方程豹汽车豹8亮相2024粤港澳车展..

文：懂车帝原创曹浩[懂车帝原创产品] 6月1日，2024粤港澳大湾区车展开..

没测完就开卖？汽车耐久性测试怎么才算合格？

最近，雷总在直播中透露，小米SU7的测试车目前还在测试中，而且还准备每..

汽车最没用的4大配置！让您购车能够慧眼识珠，省下几万块不是梦..

驾驶的乐趣，不仅仅源自于引擎的轰鸣与速度的激情，更在于每一处细节设计..

小身材也有大智慧，试驾新生代智选SUV起亚索奈

如果手握10万元的预算左右买一辆SUV，有人会说纯电车使用成本很低，用起..

深港澳至强SUV新车，霸霸霸霸王龙

【太平洋汽车新车频道】6月1日，在2024粤港澳大湾区车展上，第二代AION ..

关于作者

冰冷的开会..(普通会员)

文章

910

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

02

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

03

DeepSeek 究竟是个啥？一文带你看明白

1个月前

04

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

2023/07/18

05

上海女家长陪睡校长，不雅聊天记录曝光！真是三观尽毁

2023/06/19

标签云

成员 网址收录40400 企业收录2981 印章生成237605 电子证书1052 电子名片60 自媒体51892

@2022 All Rights Reserved

浙ICP备19035174号-7

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索