> 自媒体 > (AI)人工智能 > GPT-3 类比思维测试表现优于大学生
GPT-3 类比思维测试表现优于大学生
来源:日月明尊
2023-08-08 15:51:34
415
管理

美国心理学家测试了大型GPT-3语言模型通过类比解决不熟悉任务的能力。这是确定人的智力发展的经典方法,神经网络算法以意想不到的方式展现了自己。在 Raven 标准渐进矩阵适应测试中,他比大学高年级学生得到了更多正确答案。

《机械姬》剧照 (2014)

让神经网络做一些原本没有打算做的事情是一种有趣的娱乐,在开放像ChatGPT 这样的语言模型之后,几乎每个互联网用户都会遇到这种娱乐。然而,这样的行为可能有完全科学的理由。科学家们正在测试生成人工智能的能力极限,并寻找理解人类思维的方法。

也许GPT-3系列算法最令人印象深刻的是它们能够用最少的示例(零样本)解决某些新问题。最主要的是用文字描述问题。

这种思维机制——研究一两个样本,与一种新的、完全陌生但相似的情况进行类比,并找到出路——被称为类比推理。这是指“推理”是思维的一部分,而不是语言表达。人们相信这是人类的独特特征。也许也是一些智力最发达的动物物种。

加州大学洛杉矶分校 ( UCLA ) 的研究人员想知道GPT-3是否真的可以通过类比进行推理。为此,他们选择了模型在训练期间绝对不会遇到的任务。

科学家们使用 Raven 的标准渐进矩阵对经过时间考验的测试卡进行了改编,用于基于文本的人工智能。

基于 Raven 标准渐进矩阵原理构建的问题示例

这些是九个元素的一系列图像,分成三组,但第九个单元缺失。要求受试者从多个选项中选择正确答案。形状具有多个属性,这些属性在每一行中根据一组规则发生变化。要正确回答,您需要查看前两行,确定规则,并在进行类比后将其应用到第三行。这在语言上并不容易,但在视觉上却很容易被感知(见图)。接下来的每一项任务,难度都会增加。

由于GPT-3不是多模态模型,即它只能处理文本,因此矩阵已进行了调整,但原理保持不变。对照组是加州大学洛杉矶分校的大学生。他们输给了人工智能。

学生们给出的正确答案略低于 60%(正常水平),GPT-3 - 80%(高于人们的平均水平,但在正常范围内)。正如该研究的作者指出的那样,该算法犯了与人类相同的错误。换句话说,决策过程很可能非常相似。

除了Raven矩阵之外,研究人员还给出了来自美国标准化入学考试(SAT)的算法任务。它的大多数变体从未在公共领域发布过,因此 GPT-3 很可能也不熟悉它们。

该模型在“仇恨”的“爱”与这个词的“财富”相同,什么?(正确答案是“贫穷”)。因此,算法必须明白在这种情况下需要找到反义词,而无需直接指示。

正如预期的那样,GPT-3很好地解决了更困难的问题,其中必须在整个句子或段落之间进行类比。但模型不出所料地陷入了困境,那就是空间思维任务。

即使你详细描述了这个问题,比如“将软糖从一个碗转移到另一个碗的最佳方法是什么——用管子、剪刀或胶带”,算法也会提供无意义的文本作为回应。

研究中使用的测试样本。左边 (a) 是标准 Raven 渐进矩阵的变体之一,右边 (b) 是其同构(根据同一组规则构建)文本格式的类似物 。

美国心理学家进行的一项研究在一个新的层面上提出了这个问题:大型语言模型是否模仿了人类思维的许多方面,或者我们面临着一种全新的思维方式?在第二种情况下,与著名的哲学概念“车里的幽灵”的类比不言而喻。根据他的一种解释,一个相当复杂的人工系统(机器)可以获得新的不可预见的特性,从外部看这些特性与人类意识无法区分。

这项科学工作有两个重大局限性,其作者正确地指出了这一点。首先,尽管研究人员做出了努力,但并不能保证GPT-3在训练过程中遇到与上述类似的任务。该模型不太可能是针对渐进 Raven 矩阵的文本表示进行训练的。最重要的是,可以在训练数据集中找到SAT 的一些变体。

第二个问题由此而来:科学家无法进入模型的“内部”,这就是为什么它的“思考”过程是一个黑匣子。这阻碍了神经科学的发展。

一篇详细介绍该研究的科学文章发表在《自然人类行为》杂志上。其预印本(未经审查的版本)可在arXiv门户网站上的公共领域获取。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
4S店关了,消费者权益不能随意“关”|荔枝时评
文/熊志(作者熊志,荔枝新闻特约评论员,资深评论人;本文系荔枝新闻客..
4S店现关停潮,消费者权益谁来保障?
“品牌授权已取消”“公司当前暂停营业”“已提出退网申请”……近期,部..
多地4s店迎来倒闭潮,他们可以一跑了之但消费者怎么办呢?..
最近,多地4S店倒闭潮的消息如惊雷般炸响,让汽车行业的从业者和广大消费..
二手车|别克GL8:空间超大还保值!奶爸首选
随着二胎、三胎政策的放开,再加上生活水平的提升,越来越多的消费者在购..
二手车|天籁:十一、二万,日系+中型+大沙发都有?..
十一、二万,你是选择一台紧凑型还是一台二手日系中型轿车?入门级车型更..
买新车贬值快\u0026#34;不划算\u0026#34;?这几款二手车开上几年不会亏,还..
既然买新车"吃亏",那么二手车怎样呢?今天漫哥就跟大家推荐几款在一直保..
不敢买二手车?看完这些买前功课放心去买吧
[爱卡汽车 淘二手车原创]随着近几年国内二手车行业的发展,相信大家也感..
选购二手车,先看这几点,新手避坑指南
哈喽,兄弟们!熟悉南哥的都知道,南哥自己买的车大多是都二手,比如天籁..
新能源二手车能不能买?三吱跑了1300公里告诉你答案
不知道大家有没有看过电影《飞驰人生》,自从看了这个电影,我一直想体验..
关于作者
快乐的老范..(普通会员)
文章
646
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40373 企业收录2981 印章生成220227 电子证书958 电子名片58 自媒体39805

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索