> 自媒体 > (AI)人工智能 > 微软最新研究:GPT-4很强,也有自己的软肋!|前哨
微软最新研究:GPT-4很强,也有自己的软肋!|前哨
来源:王煜全
2023-04-17 12:04:32
504
管理

3月26日,周日晚8点,前哨科技特训营将带来【未来科技】专题直播下半场,王煜全将继续和大家分享他观察的新科技趋势。

今天,我们带大家先看看AI变革中的前沿理解,微软研究院3月22日发布了154页的GPT-4研究论文(Sparks of Artificial General Intelligence: Early experiments with GPT-4)。

研究认为:在所有任务中GPT-4 的表现都非常接近人类水平,并且经常大大超过 ChatGPT 等其他模型。鉴于 GPT-4 功能的广度和深度,我们认为可以合理地将其视为通用人工智能 (AGI) 系统的早期(仍不完整)的版本。

你如果没有时间详细了解,今天我们为你列出了文中重点,更多关于AI产业变革的分析、预测,欢迎点击文首图片加入前哨科技特训营,我们持续和你分享。

1.GPT-4可以看作通用人工智能早期版

研究开篇就提出,GPT-4除了能处理各种语言任务,还可以解决数学、编程、图像、医学、法律、心理学等多个领域的困难任务。

研究员认为,鉴于GPT-4突出的功能,已经可以视作一种早期的通用人工智能系统,也存在一个Transformer的关键缺陷。

2.GPT-4的聪明是真聪明吗?

测试智能理解程度,可以看它能否回答脑经急转弯式的问题。

一个经典的例子是:一个猎人向南走一英里,向东走一英里,向北走一英里,最后又回到了他开始的地方,射杀了一只熊,请问这只熊是什么颜色的?答案是白色的,因为唯一可能发生这种情况的地方是北极,那里有北极熊。

GPT-4做出了正确的回答,ChatGPT却放弃了,但GPT-4是真的理解,还是数据更多了呢?

3.全新的测试标准

和OpenAI采用基准测试评价GPT-4不同,微软研究员提出了更接近人的测试方法评价GPT-4对知识的理解深度,覆盖了人类智力测试、编程、数学以及多任务表现等多个方面。

例如让GPT-4以莎士比亚的风格论证定理,让它使用代码绘制独角兽,通过现有人类知识库中不存在的组合,测试了GPT-4对各种概念的理解情况。

4.GPT-4在智力测试中体现出概念迁移能力

论文的第一个评价标准是「信息综合能力」,原本是衡量人是否拥有知识迁移的能力。

测试中的GPT-4还是早期版本,并没有多模态功能,已经能将文学、医学、法律、数学的知识相互贯通,在研究中还体现了很强的图像和音频能力。

例如,要求 GPT-4“用javascript生成画家康定斯基风格的随机图像”“证明莎士比亚的文学风格中存在无限多个素数”。

5.GPT-4已经能独立完成部分编程项目

GPT-4的编程能力大家已经非常了解,在这个测试中展示了更广泛的编程能力,从基本的编程任务,到复杂的游戏制作,都体现出了非常强的理解力。

测试中要求 GPT-4 使用JavaScript在网页中编写 3D 游戏,GPT-4甚至理解了对于NPC设定的要求,一次性完成了整个任务;相比之下ChatGPT则回应它无法独立实现。

6.数学能力有飞跃,离专家还有距离

数学能力上,研究人员发现GPT-4的进步是飞跃式的,即便对比Minerva等数学模型也有明显优势,但离专家水平还相差很远,不具备数学研究的能力。

目前,GPT-4可以回答困难的高中数学问题,并且有时可以围绕高级的数学话题进行对话,但仍然会有很多基本错误,这可以直接被看作对数学概念缺乏理解。

7.与人交互进步微妙

理解他人的意图,往往被视为共情能力非常重要的组成部分,研究员使用了儿童心理领域常用的Sally-Anne测试,发现在ChatGPT的基础上,GPT-4能够对人类意图给出微妙的解释。

8.GPT-4的关键局限

虽然GPT-4呈现出了非常强的智能,但受限于技术原理,它仍然有不少限制,研究中呈现了一个非常关键的问题:一次规划导致GPT-4的思考深度不够。

GPT算法架构不允许对已生成的内容进行修改,这相当于一个人对任何问题都必须一次性想清楚正确答案,很容易犯下基础错误。研究员进行测试,对个位数的连续加法、乘法计算,GPT-4的正确率只有58%。

微软研究员将这归结为:预测下一个词的生成形式限制了AI的短期记忆长度,虽然可以通过提示词部分改进这一问题,但底层的架构不变,这个缺陷将始终存在。

这既是当前人工智能的不足,或许也是大部分人都还能保住的智能优势。

1
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
2024IAA:先锋技术引领电动重卡未来,奔驰eActros 600实拍..
在欧洲卡车行业,有着一项“最高荣誉”,它的名字叫做:International Tr..
2024IAA:氢内燃机结合增程混动技术?解读依维柯氢内燃重卡展品..
对于商用车行业而言,氢能源从未变得如此重要。在环保、效率的极高要求下..
2年拿下3个车企,吉利商用车能和老牌商用车掰手腕吗?..
【卡车之家 原创】7月2日,吉利江西上饶基地正式投产,该基地主要生产吉..
远程、比亚迪和宇通“商用车比剑”,你认为哪家未来赢面更大?..
“剑”是人们很熟悉常见的一种兵器,被称为短兵之祖。如果不会用剑,都不..
年后计划买新车?详细购车流程奉上,帮你搞懂贷款买车到底贵多少..
【卡车之家 原创】过完年即将迎来开工季,也有不少卡友考虑购买新车或者..
宁德时代,“卷”向商用车|钛度车库
图片来源:钛媒体App现场拍摄7月4日,在自己的大本营福建省宁德市,宁德..
商用车找到新模式,下一个风口呼之欲出
【卡车之家 原创】随着华为等科技巨头不断推出新的平台和技术,自动驾驶..
上半年销量下降!主打商用车的江淮,能否撑起百万豪车定位?..
8月27日晚,江淮汽车(600418.SH)公布2024半年度报告(以下简称“半年报..
汽车行业观察:乘用车内卷或是必然,商用车市场机会渐显..
文|满投财经8月初,乘联会初步统计了7月乘用车市场的零售数据,7月乘用..
关于作者
御赐铲屎官..(普通会员)
文章
959
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40401 企业收录2983 印章生成238236 电子证书1058 电子名片60 自媒体56344

@2022 All Rights Reserved 浙ICP备19035174号-7
1
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索