编辑:Aeneas 好困
【新智元导读】最新研究结果表明,AI在心智理论测试中的表现已经优于真人。GPT-4在推理基准测试中准确率可高达100%,而人类仅为87%。
GPT-4的心智理论,已经超越了人类!
最近,约翰斯·霍普金斯大学的专家发现,GPT-4可以利用思维链推理和逐步思考,大大提升了自己的心智理论性能。
Zero-Shot Step-by-Step Thinking
Two-Shot思维链推理
prompt加持之后
作者发现,利用修改后的提示进行上下文学习之后,所有在Davinci-2之后发布的GPT模型,都会有明显的提升。
首先,是最经典的让模型一步一步地思考。
结果显示,这种step-by-step思维提高了Davinci-3、GPT-3.5-Turbo和GPT-4的表现,但没有提高Davinci-2的准确性。
其次,是采用Two-shot思维链(CoT)进行推理。
结果显示,Two-shot CoT提高了所有用RLHF训练的模型(除Davinci-2以外)的准确性。
对于GPT-3.5-Turbo,Two-shot CoT提示明显提高了模型的性能,并且比一步一步思考更加有效。对于Davinci-3和GPT-4来说,用Two-shot CoT带来的提升相对有限。
最后,同时使用Two-shot CoT推理和一步一步地思考。
结果显示,所有RLHF训练的模型的ToM准确性都有明显提高:Davinci-3达到了83%(±6%)的ToM准确性,GPT-3.5-Turbo达到了91%(±5%),而GPT-4达到了100%的最高准确性。
而在这些情况下,人类的表现为87%(±4%)。
另外,此前就有许多学者对于这种评估LLM推理能力的指标有过异议。
因为这些研究主要依赖于单词补全或多项选择题来衡量大模型的能力,然而这种评估方法可能无法捕捉到LLM所能进行的ToM推理的复杂性。ToM推理是一种复杂的行为,即使由人类推理,也可能涉及多个步骤。
因此,在应对任务时,LLM可能会从产生较长的答案中受益。
原因有两个:首先,当模型输出较长时,我们可以更公平地评估它。LLM有时会生成「纠正」,然后额外提到其他可能性,这些可能性会导致它得出一个不确定的总结。另外,模型可能对某种情况的潜在结果有一定程度的信息,但这可能不足以让它得出正确的结论。
其次,当给模型机会和线索,让它们系统性地一步一步反应时,LLM可能会解锁新的推理能力,或者让推理能力增强。
最后,研究者也总结了工作中的一些不足。
比如,在GPT-3.5模型中,有时推理是正确的,但模型无法整合这种推理来得出正确的结论。所以未来的研究应该扩展对方法(如RLHF) 的研究,帮助LLM在给定先验推理步骤的情况下,得出正确结论。
另外,在目前的研究中,并没有定量分析每个模型的失效模式。每个模型如何失败?为什么失败?这个过程中的细节,都需要更多的探究和理解。
还有,研究数据并没有谈到LLM是否拥有与心理状态的结构化逻辑模型相对应的「心理能力」。但数据确实表明,向LLM询问ToM的问题时,如果寻求一个简单的是/否的答案,不会有成果。
好在,这些结果表明,LLM的行为是高度复杂和上下文敏感的,也向我们展示了,该如何在某些形式的社会推理中帮助LLM。
所以,我们需要通过细致的调查来表征大模型的认知能力,而不是条件反射般地应用现有的认知本体论。
总之,随着AI变得越来越强大,人类也需要拓展自己的想象力,去认识它们的能力和工作方式。
参考资料:
相关文章
猜你喜欢
成员 网址收录40404 企业收录2983 印章生成238804 电子证书1060 电子名片60 自媒体58417