连GPT-4都考不及格，17个大模型悉数落败，因果推理太难了-脚本导航

> 自媒体 > （AI）人工智能 > 连GPT-4都考不及格，17个大模型悉数落败，因果推理太难了

连GPT-4都考不及格，17个大模型悉数落败，因果推理太难了

来源：机器之心Pro

2023-07-10 11:34:03

653

管理

机器之心报道

机器之心编辑部

大模型的涌现能力经得起推敲吗？

自 ChatGPT 发布以来，大模型的涌现能力一直被人们称赞，包括强大的语言理解能力、生成能力、逻辑推理能力等。然而，最近一项研究表明，大模型在因果推理方面普遍性能很差，连 GPT-4 都不及格。

这项研究是由来自马克斯・普朗克研究所、苏黎世联邦理工学院（ETH）、密歇根大学、香港大学和 Meta AI 的研究者们共同完成的。研究目标就是探究大型语言模型（LLM）是否能根据相关性进行因果推理。

基于 CORR2CAUSE 数据集，该研究主要分析两个问题：

现有的 LLM 在此任务上表现如何？

现有的 LLM 是否可以针对此任务进行重新训练或重新定位并获得强大的因果推理技能？

该研究通过实验表明，现有 17 个 LLM 在这个纯因果推理任务上表现均不佳。并且，尽管 LLM 在对数据进行微调后可以表现出更好的性能，但其因果推理技能并不稳健。

实验结果

现有 LLM 的 CORR2CAUSE 能力

如下表 4 所示，对于实验中所有 LLM 来说，纯因果推理都是一项非常具有挑战性的任务。其中，BART MNLI 的 F1 值最高，为 33.38%，甚至高于 GPT-4（29.08%）。值得注意的是，许多模型的表现比随机猜测还要差，这意味着它们在纯因果推理任务中完全失败。

感兴趣的读者可以阅读论文原文，了解更多研究细节。

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

这也太能“考”了！GPT-4通过注册会计师和内审师考试

2023-07-10 11:35

微软深夜放出王炸！GPT-4全面进入Windows 11，10亿打工人被革命

2023-07-10 11:32

相关文章

汽车电瓶能用几年？瓦尔塔、骆驼、风帆怎么选？一次性给你讲清楚..

咱们汽车上都有一个小电瓶，这个小电瓶的作用就是用来启动发动机的，一旦..

试驾全新福特Mustan-性能拉满的大玩具

驾控方面，在本活动中主打“漂移”。百公里加速5秒级的加速，2.3T的发动..

未来10年，5大汽车品牌或将挥手告别中国，想买这些车的避免踩坑..

在这个汽车工业飞速演进的时代，中国，这片充满活力与挑战的土地，已悄然..

2024年国际汽车新材料大会落幕

光明网讯5月31日，由中国汽车工程学会、汽车轻量化技术创新战略联盟、芜..

全面拥抱智能化试驾上汽大众途观L Pro

【太平洋汽车评测频道】一代神车途观上新啦！这也是途观的第三代车型，..

新车 | 50万元级别插混中大型SUV 方程豹汽车豹8亮相2024粤港澳车展..

文：懂车帝原创曹浩[懂车帝原创产品] 6月1日，2024粤港澳大湾区车展开..

没测完就开卖？汽车耐久性测试怎么才算合格？

最近，雷总在直播中透露，小米SU7的测试车目前还在测试中，而且还准备每..

汽车最没用的4大配置！让您购车能够慧眼识珠，省下几万块不是梦..

驾驶的乐趣，不仅仅源自于引擎的轰鸣与速度的激情，更在于每一处细节设计..

小身材也有大智慧，试驾新生代智选SUV起亚索奈

如果手握10万元的预算左右买一辆SUV，有人会说纯电车使用成本很低，用起..

关于作者

杨子(普通会员)

文章

962

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

02

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

03

DeepSeek 究竟是个啥？一文带你看明白

1个月前

04

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

2023/07/18

05

上海女家长陪睡校长，不雅聊天记录曝光！真是三观尽毁

2023/06/19

标签云

成员 网址收录40400 企业收录2981 印章生成237605 电子证书1052 电子名片60 自媒体51893

@2022 All Rights Reserved

浙ICP备19035174号-7

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索