100:87：GPT-4心智碾压人类！三大GPT-3.5变种难敌-脚本导航

> 自媒体 > （AI）人工智能 > 100:87：GPT-4心智碾压人类！三大GPT-3.5变种难敌

100:87：GPT-4心智碾压人类！三大GPT-3.5变种难敌

来源：新智元

2023-06-20 15:47:00

787

管理

编辑：Aeneas 好困

【新智元导读】最新研究结果表明，AI在心智理论测试中的表现已经优于真人。GPT-4在推理基准测试中准确率可高达100%，而人类仅为87%。

GPT-4的心智理论，已经超越了人类！

最近，约翰斯·霍普金斯大学的专家发现，GPT-4可以利用思维链推理和逐步思考，大大提升了自己的心智理论性能。

Zero-Shot Step-by-Step Thinking

Two-Shot思维链推理

prompt加持之后

作者发现，利用修改后的提示进行上下文学习之后，所有在Davinci-2之后发布的GPT模型，都会有明显的提升。

首先，是最经典的让模型一步一步地思考。

结果显示，这种step-by-step思维提高了Davinci-3、GPT-3.5-Turbo和GPT-4的表现，但没有提高Davinci-2的准确性。

其次，是采用Two-shot思维链（CoT）进行推理。

结果显示，Two-shot CoT提高了所有用RLHF训练的模型（除Davinci-2以外）的准确性。

对于GPT-3.5-Turbo，Two-shot CoT提示明显提高了模型的性能，并且比一步一步思考更加有效。对于Davinci-3和GPT-4来说，用Two-shot CoT带来的提升相对有限。

最后，同时使用Two-shot CoT推理和一步一步地思考。

结果显示，所有RLHF训练的模型的ToM准确性都有明显提高：Davinci-3达到了83%（±6%）的ToM准确性，GPT-3.5-Turbo达到了91%（±5%），而GPT-4达到了100%的最高准确性。

而在这些情况下，人类的表现为87%（±4%）。

另外，此前就有许多学者对于这种评估LLM推理能力的指标有过异议。

因为这些研究主要依赖于单词补全或多项选择题来衡量大模型的能力，然而这种评估方法可能无法捕捉到LLM所能进行的ToM推理的复杂性。ToM推理是一种复杂的行为，即使由人类推理，也可能涉及多个步骤。

因此，在应对任务时，LLM可能会从产生较长的答案中受益。

原因有两个：首先，当模型输出较长时，我们可以更公平地评估它。LLM有时会生成「纠正」，然后额外提到其他可能性，这些可能性会导致它得出一个不确定的总结。另外，模型可能对某种情况的潜在结果有一定程度的信息，但这可能不足以让它得出正确的结论。

其次，当给模型机会和线索，让它们系统性地一步一步反应时，LLM可能会解锁新的推理能力，或者让推理能力增强。

最后，研究者也总结了工作中的一些不足。

比如，在GPT-3.5模型中，有时推理是正确的，但模型无法整合这种推理来得出正确的结论。所以未来的研究应该扩展对方法(如RLHF) 的研究，帮助LLM在给定先验推理步骤的情况下，得出正确结论。

另外，在目前的研究中，并没有定量分析每个模型的失效模式。每个模型如何失败？为什么失败？这个过程中的细节，都需要更多的探究和理解。

还有，研究数据并没有谈到LLM是否拥有与心理状态的结构化逻辑模型相对应的「心理能力」。但数据确实表明，向LLM询问ToM的问题时，如果寻求一个简单的是/否的答案，不会有成果。

好在，这些结果表明，LLM的行为是高度复杂和上下文敏感的，也向我们展示了，该如何在某些形式的社会推理中帮助LLM。

所以，我们需要通过细致的调查来表征大模型的认知能力，而不是条件反射般地应用现有的认知本体论。

总之，随着AI变得越来越强大，人类也需要拓展自己的想象力，去认识它们的能力和工作方式。

参考资料：

https://arxiv.org/abs/2304.11490

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

GPT-4接入Office全家桶：用人类自然语言操作一切

2023-06-20 15:52

GPT 4 取代年薪 60 万数据分析师，成本仅需 2000 块？

2023-06-20 15:45

相关文章

深度关注丨汽车消费向“新”而行

中央纪委国家监委网站李云舒图为近日，在河北省邯郸市永年区汽车促销活..

裁员、召回、无赔偿！理想汽车不谈“人文关怀”

原来车企不仅可以召回汽车，还可以“召回”员工。继大规模裁员一月之后，..

阿维塔总裁陈卓：中国汽车市场现状与重庆火锅非常相似，都是“热辣滚烫”..

“2024中国汽车重庆论坛（CACS2024）”于6月6日-8日举行。阿维塔科技总裁..

大众汽车集团三年内“动刀”裁员20%？最新回应→

每经记者：苗诗雨每经编辑：王月龙,孙磊日前，《每日经济新闻》记者获悉..

2024款凯迪拉克锐歌Lyriq评测：超值的豪华电动汽车

2024 款凯迪拉克 Lyriq 的尾部无疑是其最具争议的角度。凯迪拉克尾部几乎..

宝马打五折，4S店仅剩1辆现车，合资豪华品牌汽车溢价能力遭重构..

风口财经记者王贝贝近日“宝马i3腰斩式大降价”的话题登上热搜。官方报..

退市风险叠加人事更迭极星汽车危机重重

经济观察报记者王帅国连续十余天股价低于1美元面临退市风险，中国市场..

6大国产汽车品牌，高品质不贵，买车必看

质量最好，性价比高的汽车品牌，选择这6款国产品牌，准没错这车可是定位..

汽车认证存在造假行为，丰田、本田、马自达日本高管鞠躬道歉..

环球网及多家媒体报道，据日本国土交通省发布消息，鉴于日本大发工业等公..

关于作者

天泰悠然(普通会员)

文章

1052

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

02

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

03

DeepSeek 究竟是个啥？一文带你看明白

2个月前

04

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

2023/07/18

05

上海女家长陪睡校长，不雅聊天记录曝光！真是三观尽毁

2023/06/19

标签云

成员 网址收录40404 企业收录2983 印章生成238804 电子证书1060 电子名片60 自媒体58417

@2022 All Rights Reserved

浙ICP备19035174号-7

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索