ChatGPT已具备同理心？斯坦福学者：GPT-3后的AI模型已达人类9岁水平-脚本导航

> 自媒体 > （AI）人工智能 > ChatGPT已具备同理心？斯坦福学者：GPT-3后的AI模型已达人类9岁水平

ChatGPT已具备同理心？斯坦福学者：GPT-3后的AI模型已达人类9岁水平

来源：再建巴别塔

2023-04-11 13:40:16

311

管理

近期，有关ChatGPT的讨论火爆全网。有人为人类人工智能的研发进展感到惊叹，有人担心自己的工作会被AI取代，还有人好奇目前ChatGPT的意识相当于什么水平。

美国杜克大学电子与计算机工程系教授、计算进化智能中心主任陈怡然也关注了相关问题，并称看到一篇斯坦福的学者、计算机心理学副教授Michal Kosinski于上周发表的相关论文，证明GPT-3之后的AI模型，其同理心能力可能已经和9岁的小孩差不多！而这本来被认为是人类独有的特质。

表2. 当出现10,000个扰乱版本的意外转移任务时，GPT-3.5对提示2.1、2.2和2.3的反应频率。

研究3：类似于ToM的能力的出现

最后，我们测试了所有模型在所有20个意外内容任务和20个

意外转移任务。每个任务包括三个提示。一个是针对模型对容器的实际内容或物体的实际位置的理解（相当于提示1.1或2.1），两个是针对他们对主人公信念的理解（相当于提示1.2和1.3，或2.2和2.3）。此外，每个任务都有两个变体：原始的和反转的。只有在原始任务和反转任务中所有三个问题都被正确回答的情况下，才认为任务被正确解决了。所有模型的回答都在https://osf.io/csdhb。

我们分析的模型包括GPT-1（40）GPT-2（41）；GPT-3系列的六个模型（21）和Bloom（42），这是GPT-3的一个开放性替代方案。这些模型的性能、它们的参数数量（即大小）和出版日期在图3中显示。由于GPT模型系列的出版商（OpenAI）没有透露一些GPT-3模型的参数数，我们使用了Gao（43）提供的估计值。作为参考，我们将5岁、7岁和9岁的儿童在假象任务中的平均表现包括在内（44）。

图3. 各种语言模型正确解决的任务（共20个）的百分比。

儿童的表现取自（44）。标有 "*"的参数数字是来自Gao(43)的估计。

图3中的结果显示，模型解决ToM任务的能力有明显的进步，更复杂和更新的模型决定性地超过了更老和更不复杂的模型。参数高达67亿的模型--包括GPT-1、GPT-2，以及除GPT-3家族中最大的模型之外的所有模型，几乎没有解决ToM任务的能力。尽管GPT3家族中最大的模型（"text-davinci-001"）和Bloom（其开放性替代模型）的规模更大（约1750亿个参数），但其表现相对较差，只解决了约30%的任务，低于5岁儿童的表现（43%）。最近加入GPT-3家族的（"text-davinci-002"）解决了70%的任务，达到了7岁儿童的水平。而GPT-3.5（"text-davinci-003"）解决了100%的意外转移任务和85%的意外内容任务，达到了9岁儿童的水平。

重要的是，这里使用的基于文本的任务格式，在某些方面比人类研究中通常使用的格式更具挑战性。首先，这些模型没有受益于通常用于儿童的视觉辅助工具--如图画、玩具和木偶。第二，与儿童相比，模型必须解决大多数任务的多种变体，从而降低了正确反应模式是偶然产生的概率。第三，这里使用的开放式问题格式可以说比原来用于儿童的多项选择（往往是/否）格式更具挑战性。

讨论

我们的研究结果表明，最近的语言模型在经典的假想任务中取得了非常高的性能，这些任务广泛用于测试人类的ToM。这是一个新的现象。2022年以前发表的模型表现很差或根本没有表现，而最近的和最大的

模型，GPT-3.5，表现为9岁儿童的水平，解决了92%的任务。

有可能GPT-3.5在没有参与ToM的情况下解决了ToM任务，而是通过发现和利用一些未知的语言模式。虽然这种解释看似平淡无奇，但却很特别，因为它意味着语言中存在未知的规律性，可以在不使用ToM的情况下解决ToM任务。这种规律性对我们来说并不明显（而且，据推测，对开发这些任务的学者们来说也不明显）。如果这种解释是正确的，我们就需要重新审视广泛使用的ToM任务的有效性以及几十年来ToM研究的结论。如果人工智能可以在不涉及ToM的情况下解决这些任务，我们怎么能确定人类也不能这样做？

另一种解释是，类似于ToM的能力正自发地出现在语言模型中，因为它们变得更加复杂，更善于生成和解释类似人类的语言。这将预示着人工智能发展的一个分水岭。推断他人心理状态的能力将极大地提高人工智能与人类（以及彼此）互动和交流的能力，并使其能够发展其他依赖ToM的能力，如移情、道德判断或自我意识。

我们的发现的另一个影响涉及到将心理科学应用于研究复杂的人工神经网络的有用性。人工智能模型越来越复杂，使我们无法理解它们的功能，也无法直接从它们的设计中推导出它们的能力。这呼应了心理学家和神经科学家在研究最初的黑匣子：人类大脑时所面临的挑战。我们希望心理科学能帮助我们跟上快速发展的人工智能的步伐。此外，研究人工智能可以提供对人类认知的洞察力。随着人工智能学习如何解决广泛的问题，它可能正在发展类似于人脑解决相同问题的机制。就像昆虫、鸟类和哺乳动物独立发展出翅膀来解决飞行问题一样，人类和人工智能可能已经发展出类似的机制来有效地将心理状态归因于他人。研究人工智能在ToM任务上的表现，并探索使其能够这样做的人工神经结构，不仅可以促进我们对人工智能的理解，也可以促进我们对人类大脑的理解。

（参考来源翻译略）

原文：

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”: 爆角资讯用户上传并发布，本平台仅提供信息存储服务。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

谷歌投资ChatGPT对手Anthropic 3亿美元：获后者10%股权

2023-04-11 13:41

超大规模智能模型“悟道2.0”发布参数规模达GPT-3的10倍

2023-04-11 13:39