> 自媒体 > (AI)人工智能 > GPT-3 类比思维测试表现优于大学生
GPT-3 类比思维测试表现优于大学生
来源:日月明尊
2023-08-08 15:51:34
323
管理

美国心理学家测试了大型GPT-3语言模型通过类比解决不熟悉任务的能力。这是确定人的智力发展的经典方法,神经网络算法以意想不到的方式展现了自己。在 Raven 标准渐进矩阵适应测试中,他比大学高年级学生得到了更多正确答案。

《机械姬》剧照 (2014)

让神经网络做一些原本没有打算做的事情是一种有趣的娱乐,在开放像ChatGPT 这样的语言模型之后,几乎每个互联网用户都会遇到这种娱乐。然而,这样的行为可能有完全科学的理由。科学家们正在测试生成人工智能的能力极限,并寻找理解人类思维的方法。

也许GPT-3系列算法最令人印象深刻的是它们能够用最少的示例(零样本)解决某些新问题。最主要的是用文字描述问题。

这种思维机制——研究一两个样本,与一种新的、完全陌生但相似的情况进行类比,并找到出路——被称为类比推理。这是指“推理”是思维的一部分,而不是语言表达。人们相信这是人类的独特特征。也许也是一些智力最发达的动物物种。

加州大学洛杉矶分校 ( UCLA ) 的研究人员想知道GPT-3是否真的可以通过类比进行推理。为此,他们选择了模型在训练期间绝对不会遇到的任务。

科学家们使用 Raven 的标准渐进矩阵对经过时间考验的测试卡进行了改编,用于基于文本的人工智能。

基于 Raven 标准渐进矩阵原理构建的问题示例

这些是九个元素的一系列图像,分成三组,但第九个单元缺失。要求受试者从多个选项中选择正确答案。形状具有多个属性,这些属性在每一行中根据一组规则发生变化。要正确回答,您需要查看前两行,确定规则,并在进行类比后将其应用到第三行。这在语言上并不容易,但在视觉上却很容易被感知(见图)。接下来的每一项任务,难度都会增加。

由于GPT-3不是多模态模型,即它只能处理文本,因此矩阵已进行了调整,但原理保持不变。对照组是加州大学洛杉矶分校的大学生。他们输给了人工智能。

学生们给出的正确答案略低于 60%(正常水平),GPT-3 - 80%(高于人们的平均水平,但在正常范围内)。正如该研究的作者指出的那样,该算法犯了与人类相同的错误。换句话说,决策过程很可能非常相似。

除了Raven矩阵之外,研究人员还给出了来自美国标准化入学考试(SAT)的算法任务。它的大多数变体从未在公共领域发布过,因此 GPT-3 很可能也不熟悉它们。

该模型在“仇恨”的“爱”与这个词的“财富”相同,什么?(正确答案是“贫穷”)。因此,算法必须明白在这种情况下需要找到反义词,而无需直接指示。

正如预期的那样,GPT-3很好地解决了更困难的问题,其中必须在整个句子或段落之间进行类比。但模型不出所料地陷入了困境,那就是空间思维任务。

即使你详细描述了这个问题,比如“将软糖从一个碗转移到另一个碗的最佳方法是什么——用管子、剪刀或胶带”,算法也会提供无意义的文本作为回应。

研究中使用的测试样本。左边 (a) 是标准 Raven 渐进矩阵的变体之一,右边 (b) 是其同构(根据同一组规则构建)文本格式的类似物 。

美国心理学家进行的一项研究在一个新的层面上提出了这个问题:大型语言模型是否模仿了人类思维的许多方面,或者我们面临着一种全新的思维方式?在第二种情况下,与著名的哲学概念“车里的幽灵”的类比不言而喻。根据他的一种解释,一个相当复杂的人工系统(机器)可以获得新的不可预见的特性,从外部看这些特性与人类意识无法区分。

这项科学工作有两个重大局限性,其作者正确地指出了这一点。首先,尽管研究人员做出了努力,但并不能保证GPT-3在训练过程中遇到与上述类似的任务。该模型不太可能是针对渐进 Raven 矩阵的文本表示进行训练的。最重要的是,可以在训练数据集中找到SAT 的一些变体。

第二个问题由此而来:科学家无法进入模型的“内部”,这就是为什么它的“思考”过程是一个黑匣子。这阻碍了神经科学的发展。

一篇详细介绍该研究的科学文章发表在《自然人类行为》杂志上。其预印本(未经审查的版本)可在arXiv门户网站上的公共领域获取。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
首席策略师随时待命!摩根士丹利们接入GPT-4:能干什么,效果如何..
当GPT-4遇上金融机构,会碰撞出什么火花?北京时间3月15日凌晨,OpenAI正..
ChatGPT的“GPT”是什么意思?三个单词暴露你的英语水平!..
当我们还活在睡梦中时,人工智能ChatGPT横空问世,从连续回答问题、生成..
开源 Llama 2 春风得意、ChatGPT 惨遭嫌弃,OpenAI 表示不服!..
最后的任务是视觉推理。新版 GPT-4 和 GPT-3.5 的整体性能较三个月前有小..
鸿蒙4.0盘古大模型AI赋能,甚比微软chatgpt,老古董手机也能升级..
根据华为产品发布计划,鸿蒙4.0将于明天下午14:30分后发布。据可靠消息,..
Meta复刻GPT-3“背刺”OpenAI,完整模型权重及训练代码全公开..
梦晨 萧箫 发自 凹非寺量子位 | 公众号 QbitAI千亿级参数AI大模型,竟然..
AI遭全球围剿?欧洲之后,美国政府考虑对ChatGPT等工具进行审查..
ChatGPT的麻烦越滚越大!据媒体最新报道,拜登政府已开始研究是否需要对C..
OpenAI 预测超级智能 10 年内到来,要组建「人类护卫队」..
关注趋势的 爱范儿 OpenAI 预言,比人类更聪明的 AI 很有可能在 2030 年..
禁忌之爱,48岁班主任与28岁美艳家长的出轨之谜,聊天记录曝光..
【引言】 在平凡的校园里,一段禁忌之爱的故事悄然上演。一位48岁的班主..
CHATGPT与协作机器人结合应用
任务指导与解释:ChatGPT可以用作协作机器人的界面,通过语音或文本与人..
关于作者
快乐的老范..(普通会员)
文章
293
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40329 企业收录2981 印章生成183915 电子证书779 电子名片48 自媒体19384

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索