> 自媒体 > (AI)人工智能 > 100:87:GPT-4心智碾压人类!三大GPT-3.5变种难敌
100:87:GPT-4心智碾压人类!三大GPT-3.5变种难敌
来源:新智元
2023-06-20 15:47:00
589
管理

编辑:Aeneas 好困

【新智元导读】最新研究结果表明,AI在心智理论测试中的表现已经优于真人。GPT-4在推理基准测试中准确率可高达100%,而人类仅为87%。

GPT-4的心智理论,已经超越了人类!

最近,约翰斯·霍普金斯大学的专家发现,GPT-4可以利用思维链推理和逐步思考,大大提升了自己的心智理论性能。

Zero-Shot Step-by-Step Thinking

Two-Shot思维链推理

prompt加持之后

作者发现,利用修改后的提示进行上下文学习之后,所有在Davinci-2之后发布的GPT模型,都会有明显的提升。

首先,是最经典的让模型一步一步地思考。

结果显示,这种step-by-step思维提高了Davinci-3、GPT-3.5-Turbo和GPT-4的表现,但没有提高Davinci-2的准确性。

其次,是采用Two-shot思维链(CoT)进行推理。

结果显示,Two-shot CoT提高了所有用RLHF训练的模型(除Davinci-2以外)的准确性。

对于GPT-3.5-Turbo,Two-shot CoT提示明显提高了模型的性能,并且比一步一步思考更加有效。对于Davinci-3和GPT-4来说,用Two-shot CoT带来的提升相对有限。

最后,同时使用Two-shot CoT推理和一步一步地思考。

结果显示,所有RLHF训练的模型的ToM准确性都有明显提高:Davinci-3达到了83%(±6%)的ToM准确性,GPT-3.5-Turbo达到了91%(±5%),而GPT-4达到了100%的最高准确性。

而在这些情况下,人类的表现为87%(±4%)。

另外,此前就有许多学者对于这种评估LLM推理能力的指标有过异议。

因为这些研究主要依赖于单词补全或多项选择题来衡量大模型的能力,然而这种评估方法可能无法捕捉到LLM所能进行的ToM推理的复杂性。ToM推理是一种复杂的行为,即使由人类推理,也可能涉及多个步骤。

因此,在应对任务时,LLM可能会从产生较长的答案中受益。

原因有两个:首先,当模型输出较长时,我们可以更公平地评估它。LLM有时会生成「纠正」,然后额外提到其他可能性,这些可能性会导致它得出一个不确定的总结。另外,模型可能对某种情况的潜在结果有一定程度的信息,但这可能不足以让它得出正确的结论。

其次,当给模型机会和线索,让它们系统性地一步一步反应时,LLM可能会解锁新的推理能力,或者让推理能力增强。

最后,研究者也总结了工作中的一些不足。

比如,在GPT-3.5模型中,有时推理是正确的,但模型无法整合这种推理来得出正确的结论。所以未来的研究应该扩展对方法(如RLHF) 的研究,帮助LLM在给定先验推理步骤的情况下,得出正确结论。

另外,在目前的研究中,并没有定量分析每个模型的失效模式。每个模型如何失败?为什么失败?这个过程中的细节,都需要更多的探究和理解。

还有,研究数据并没有谈到LLM是否拥有与心理状态的结构化逻辑模型相对应的「心理能力」。但数据确实表明,向LLM询问ToM的问题时,如果寻求一个简单的是/否的答案,不会有成果。

好在,这些结果表明,LLM的行为是高度复杂和上下文敏感的,也向我们展示了,该如何在某些形式的社会推理中帮助LLM。

所以,我们需要通过细致的调查来表征大模型的认知能力,而不是条件反射般地应用现有的认知本体论。

总之,随着AI变得越来越强大,人类也需要拓展自己的想象力,去认识它们的能力和工作方式。

参考资料:

https://arxiv.org/abs/2304.11490

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
天泰悠然(普通会员)
文章
379
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40329 企业收录2981 印章生成187054 电子证书796 电子名片49 自媒体20954

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索