> 自媒体 > (AI)人工智能 > 连GPT-4都考不及格,17个大模型悉数落败,因果推理太难了
连GPT-4都考不及格,17个大模型悉数落败,因果推理太难了
来源:机器之心Pro
2023-07-10 11:34:03
650
管理

机器之心报道

机器之心编辑部

大模型的涌现能力经得起推敲吗?

自 ChatGPT 发布以来,大模型的涌现能力一直被人们称赞,包括强大的语言理解能力、生成能力、逻辑推理能力等。然而,最近一项研究表明,大模型在因果推理方面普遍性能很差,连 GPT-4 都不及格。

这项研究是由来自马克斯・普朗克研究所、苏黎世联邦理工学院(ETH)、密歇根大学、香港大学和 Meta AI 的研究者们共同完成的。研究目标就是探究大型语言模型(LLM)是否能根据相关性进行因果推理。

基于 CORR2CAUSE 数据集,该研究主要分析两个问题:

现有的 LLM 在此任务上表现如何?

现有的 LLM 是否可以针对此任务进行重新训练或重新定位并获得强大的因果推理技能?

该研究通过实验表明,现有 17 个 LLM 在这个纯因果推理任务上表现均不佳。并且,尽管 LLM 在对数据进行微调后可以表现出更好的性能,但其因果推理技能并不稳健。

实验结果

现有 LLM 的 CORR2CAUSE 能力

如下表 4 所示,对于实验中所有 LLM 来说,纯因果推理都是一项非常具有挑战性的任务。其中,BART MNLI 的 F1 值最高,为 33.38%,甚至高于 GPT-4(29.08%)。值得注意的是,许多模型的表现比随机猜测还要差,这意味着它们在纯因果推理任务中完全失败。

感兴趣的读者可以阅读论文原文,了解更多研究细节。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
一家五口出游,建议开大5座SUV,看看这三款,动力强,安全还舒适..
随着生活品质的提升,越来越多的家庭选择通过自驾游来度过难得的假期时光..
奔驰:计划再停售两款SUV!推CLE“SUV版”车型
日前据海外媒体透露,继梅赛德斯-奔驰计划在2026年停售A级、B级入门版车..
9月—12月,即将上市的6款SUV
时间来到9月,此前在成都车展完成亮相的一批新车将在9-12月陆续完成上市..
9月中型SUV扎堆上市,阿维塔07优势在哪?
在长安朱华荣、蔚来李斌、小鹏汽车何小鹏、比亚迪李云飞的花式打call中,..
新车|价格超千万,最大功率可达3043马力!希腊超跑Chaos明年交付..
文:懂车帝原创 周桐[懂车帝原创 产品] 近年来涌现的造车新势力挤占了不..
新车 | 售263.8万元,法拉利Portofino M国内首发亮相,四座敞篷跑车..
文:懂车帝原创 高帅鹏[懂车帝原创 产品] 日前,法拉利旗下两门四座硬顶..
全球销量最高的跑车,42万买台才两万公里的福特野马5.0L值不值?..
哈喽,大家好!检车家又和大家见面啦!我是身高1米8,体重180斤,穿着44码..
200万的经典「保时捷911」试驾!动力十足3.8秒破百,够拉风.....
车尾的进气格栅极具辨识度,这里有一个小细节,你发现了吗?从进气格栅的..
488.8万元起,顶级跑车,双门双座,实拍SF90
488.8万元起,顶级跑车,双门双座, 实拍SF90法拉利旗下的每一款运动车型..
关于作者
杨子(普通会员)
文章
935
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40399 企业收录2981 印章生成237432 电子证书1052 电子名片60 自媒体50079

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索