> 自媒体 > (AI)人工智能 > 人工智能语言模型GPT-3的推理能力堪比大学生:心理学家报告
人工智能语言模型GPT-3的推理能力堪比大学生:心理学家报告
来源:大老李聊数学
2023-08-08 15:49:41
414
管理

**摘要:**人工智能语言模型GPT-3在解决某些逻辑问题方面的表现与大学生相当,这些问题类似于标准化测试中出现的问题。研究人员写道,这一结果引发了一个问题:这项技术是否在模仿人类推理,还是在使用一种新型的认知过程。要解决这个问题,需要访问支撑GPT-3和其他AI软件的软件。

全文报道:

人们可以通过将新问题与熟悉的问题进行比较,并将解决方案扩展到新问题来轻松解决新问题。这一过程被称为类推推理,长期以来被认为是人类独有的能力。

但现在,人们可能需要为新来者让路。

洛杉矶加利福尼亚大学(UCLA)的心理学家的研究表明,令人惊讶的是,人工智能语言模型GPT-3在解决通常出现在智力测试和标准化测试(如SAT)上的推理问题方面的表现与大学本科生相当。该研究发表在《自然人类行为》杂志上。

但论文的作者写道,该研究提出了一个问题:GPT-3是在模仿人类推理作为其庞大语言训练数据集的副产品,还是在使用一种根本新的认知过程?

由于无法访问GPT-3的内部工作机制(由OpenAI公司保护),UCLA的科学家无法确定其推理能力是如何工作的。他们还写道,尽管GPT-3在某些推理任务方面的表现远远超出了他们的预期,但这一流行的AI工具在其他方面仍然失败得惨不忍睹。

UCLA的博士后研究员泰勒·韦布(Taylor Webb)表示:“无论我们的结果多么令人印象深刻,都必须强调,这个系统存在重大局限性。它可以进行类推推理,但不能解决人们很容易解决的问题,例如使用工具解决物理任务。当我们给它提出这些问题时——其中一些问题孩子们可以迅速解决——它提出的解决方案是荒谬的。”

韦布和他的同事测试了GPT-3解决一组灵感来自Raven's Progressive Matrices测试的问题的能力,该测试要求受试者预测一组复杂形状排列中的下一个图像。为了使GPT-3能够“看到”形状,韦布将图像转换为GPT-3可以处理的文本格式;这种方法还确保了AI以前从未遇到过这些问题。

研究人员要求40名UCLA本科生解决相同的问题。

UCLA心理学教授洪京露(Hongjing Lu)表示:“令人惊讶的是,GPT-3不仅表现得和人类一样好,而且还犯了类似的错误。”

GPT-3正确解决了80%的问题——远高于人类受试者的平均得分(略低于60%),但在最高人类得分的范围内。

研究人员还要求GPT-3解决一组SAT类比问题,他们认为这些问题从未在互联网上发布过——这意味着这些问题不太可能成为GPT-3的训练数据的一部分。这些问题要求用户选择共享相同类型关系的单词对。(例如,在问题“'Love'与'hate'之间的关系与'rich'与哪个词之间的关系相同?”中,解决方案将是“poor”。)

他们将GPT-3的分数与大学申请人的SAT分数的已发布结果进行了比较,并发现AI的表现优于人类的平均分数。

研究人员随后要求GPT-3和学生志愿者解决基于短篇小说的类推问题——要求他们阅读一篇文章,然后确定传达相同含义的不同故事。这项技术在这些问题上的表现不如学生,尽管OpenAI的最新迭代技术GPT-4的表现优于GPT-3。

UCLA的研究人员已经开发了自己的计算机模型,该模型受到人类认知的启发,并一直在将其能力与商业AI进行比较。

UCLA心理学教授基思·霍利奥克(Keith Holyoak)表示:“AI正在变得更好,但我们的心理AI模型在去年12月之前仍然是解决类比问题的最佳选择,当泰勒得到了GPT-3的最新升级时,它变得一样好甚至更好。”

研究人员表示,到目前为止,GPT-3一直无法解决需要理解物理空间的问题。例如,如果提供了一组工具的描述——例如纸板管、剪刀和胶带——可以用来将泡泡糖从一个碗转移到另一个碗,GPT-3提出了奇怪的解决方案。

露表示:“语言学习模型只是试图进行词预测,所以我们很惊讶它们可以进行推理。在过去的两年中,这项技术已经取得了很大的进展。”

UCLA的科学家希望探索语言学习模型是否真的开始像人类一样“思考”,还是在做一些完全不同的事情,只是模仿人类思维。

霍利奥克说:“GPT-3可能有点像人类一样思考。但另一方面,人们并没有通过摄取整个互联网来学习,所以训练方法完全不同。我们想知道它是否真的像人们那样做,或者它是不是全新的东西——一种真正的人工智能——这本身就是令人惊讶的。”

为了找出答案,他们需要确定AI模型正在使用的基础认知过程,这需要访问软件和用于训练软件的数据——然后进行他们确定软件尚未接受过的测试。他们说,这将是决定AI应该成为什么的下一步。

韦布说:“对于AI和认知研究人员来说,拥有GPT模型的后端将非常有用。我们只是输入并获得输出,这并不像我们希望的那样决定性。”

来源:

https://www.sciencedaily.com/releases/2023/07/230731110750.htm

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
4S店关了,消费者权益不能随意“关”|荔枝时评
文/熊志(作者熊志,荔枝新闻特约评论员,资深评论人;本文系荔枝新闻客..
4S店现关停潮,消费者权益谁来保障?
“品牌授权已取消”“公司当前暂停营业”“已提出退网申请”……近期,部..
多地4s店迎来倒闭潮,他们可以一跑了之但消费者怎么办呢?..
最近,多地4S店倒闭潮的消息如惊雷般炸响,让汽车行业的从业者和广大消费..
二手车|别克GL8:空间超大还保值!奶爸首选
随着二胎、三胎政策的放开,再加上生活水平的提升,越来越多的消费者在购..
二手车|天籁:十一、二万,日系+中型+大沙发都有?..
十一、二万,你是选择一台紧凑型还是一台二手日系中型轿车?入门级车型更..
买新车贬值快\u0026#34;不划算\u0026#34;?这几款二手车开上几年不会亏,还..
既然买新车"吃亏",那么二手车怎样呢?今天漫哥就跟大家推荐几款在一直保..
不敢买二手车?看完这些买前功课放心去买吧
[爱卡汽车 淘二手车原创]随着近几年国内二手车行业的发展,相信大家也感..
选购二手车,先看这几点,新手避坑指南
哈喽,兄弟们!熟悉南哥的都知道,南哥自己买的车大多是都二手,比如天籁..
新能源二手车能不能买?三吱跑了1300公里告诉你答案
不知道大家有没有看过电影《飞驰人生》,自从看了这个电影,我一直想体验..
关于作者
烽火(普通会员)
文章
689
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40373 企业收录2981 印章生成220226 电子证书958 电子名片58 自媒体39805

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索