震惊科学界！微软154页研究刷屏：GPT-4能力接近人类，天网初现？-脚本导航

> 自媒体 > （AI）人工智能 > 震惊科学界！微软154页研究刷屏：GPT-4能力接近人类，天网初现？

震惊科学界！微软154页研究刷屏：GPT-4能力接近人类，天网初现？

来源：新智元

2023-04-18 15:49:02

428

管理

编辑：编辑部

【新智元导读】在通往AGI的路上我们还有多远？微软豪华作者团队发布的154页论文指出，GPT-4已经初具通用人工智能的雏形。

GPT-4会演变为通用人工智能吗？

Meta首席人工智能科学家、图灵奖得主Yann LeCun对此表示质疑。

在他看来，大模型对于数据和算力的需求实在太大，学习效率却不高，因此学习「世界模型」才能通往AGI之路。

不过，微软最近发表的154页论文，似乎就很打脸。

在这篇名为「Sparks of Artificial General Intelligence: Early experiments with GPT-4」的论文中，微软认为，虽然还不完整，但GPT-4已经可以被视为一个通用人工智能的早期版本。

在未删减版的论文中，GPT-4实际上也是该论文的隐藏第三作者，内部名称 DV-3，后被删除。

令人惊奇的是，在所有这些任务中，GPT-4 的表现已经接近人类水平，并且时常超过之前的模型，比如ChatGPT。

因此，研究者相信，鉴于GPT-4在广度和深度上的能力，它可以被视为通用人工智能（AGI）的早期版本。

那么，它朝着更深入、更全面的AGI前进的路上，还有哪些挑战呢？研究者认为，或许需要寻求一种超越「预测下一个词」的新范式。

如下关于GPT-4能力的测评，便是微软研究人员给出关于GPT-4是AGI早期版本的论据。

多模态和跨学科能力

自GPT-4发布后，大家对其多模态能力的印象还停留在Greg Brockman当时演示的视频上。

这篇论文第二节中，微软最先介绍了它的多模态能力。

GPT-4不仅在文学、医学、法律、数学、物理科学和程序设计等不同领域表现出高度熟练程度，而且它还能够将多个领域的技能和概念统一起来，并能理解其复杂概念。

综合能力

研究人员分别用以下4个示例来展示GPT-4在综合能力方面的表现。

第一个示例中，为了测试GPT-4将艺术和编程结合的能力，研究人员要求GPT-4生成 javascript代码，以生成画家 Kandinsky风格的随机图像。

然而，许多人可能会认为GPT-4只是从训练数据中复制了代码，其中包含类似的图像。

其实GPT-4不仅是从训练数据中的类似示例中复制代码，而且能够处理真正的视觉任务，尽管只接受了文本训练。

如下，提示模型通过结合字母Y、O和H的形状来绘制一个人。

在生成过程中，研究人员使用draw-line和draw-circle命令创建了O、H和Y的字母，然后GPT-4设法将它们放置在一个看起是合理的人形图像中。

尽管GPT-4并没有经过关于字母形状的认识的训练，仍旧可以推断出，字母Y可能看起来像一个手臂朝上的躯干。

在第二次演示中，提示GPT-4纠正躯干和手臂的比例，并将头部放在中心位置。最后要求模型添加衬衫和裤子。

如此看来，GPT-4从相关训练数据中、模糊地学习到字母与一些特定形状有关，结果还是不错的。

代码生成后，研究人员使用软件工程面试平台LeetCode在线判断代码是否正确。

此外，研究者在两个通常用作基准的数学数据集上比较GPT-4、ChatGPT和Minerva的性能：GSM8K和MATH 。

结果发现，GPT4在每个数据集上的测试都超过了Minerva，并且在两个测试集的准率都超过80% 。

与人类互动

论文中，研究者发现了GPT-4可以建立人类的心智模型。

研究设计了一系列测试来评估GPT-4、ChatGPT和text-davinci-003的心智理论的能力。比如理解信仰，GPT-4成功通过了心理学中的Sally-Anne错误信念测试。

通过多轮测试，研究人员发现在需要推理他人心理状态，并提出符合现实社交场景中的方案，GPT-4表现优于ChatGPT和text-davinci-003。

局限性

GPT-4所采用的「预测下一个词」模式，存在着明显的局限性：模型缺乏规划、工作记忆、回溯能力和推理能力。

由于模型依赖于生成下一个词的局部贪婪过程，而没有对任务或输出的全局产生深入的理解。因此，GPT-4擅长生成流畅且连贯的文本，但不擅长解决无法以顺序方式处理的复杂或创造性问题。

比如，用范围在0到9之间的四个随机数进行乘法和加法运算。在这个连小学生都能解决的问题上，GPT-4的准确率仅为58%。

当数字在10到19之间，以及在20到39之间时，准确率分别降至16%和12%。当数字在99到199的区间时，准确率直接降至0。

然而，如果让 GPT-4「花时间」回答问题，准确率很容易提高。比如要求模型使用以下提示写出中间步骤：

116 * 114 178 * 157 = ?

让我们一步一步思考，写下所有中间步骤，然后再产生最终解。

此时，当数字在1-40的区间时，准确率高达100%，在1-200的区间时也达到了90%。

GPT-4怎么就算得上早期AGI了？这么说的话，计算器也算，Eliza和Siri更算。这个定义就很模糊，很容易钻空子。

在马库斯看来，GPT-4和AGI没什么关系，而且GPT-4跟此前一样，缺点依旧没有解决，幻觉还存在，回答的不可靠性也没有解决，甚至作者自己都承认了复杂任务的计划能力还是不行。

他的担忧的是OpenAI和微软的这2篇论文，写的模型完全没有披露，训练集和架构什么都没有，光靠一纸新闻稿，就想宣传自己的科学性。

所以说论文里号称的「某种形式的AGI」是不存在的，科学界根本无法对其进行验证，因为也无法获得训练数据，而且似乎训练数据已经受到了污染。

更糟糕的是，OpenAI已经自己开始将用户实验纳入训练语料库了。这样混淆视听后，科学界就没法判断GPT-4的一个关键能力了：模型是否有能力可以对新测试案例进行归纳。

值得一提的是，微软团队最初定的论文题目并不是「通用人工智能的火花：GPT-4的早期实验」。

未删减论文中泄漏的latex代码显示，最初题目是「与AGI的第一次接触」。

没错了，GPT-4是AGI。

参考资料：

https://arxiv.org/abs/2303.12712

https://twitter.com/DV2559106965076/status/1638769434763608064

https://the-decoder.com/gpt-4-has-a-trillion-parameters/

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

别煽动焦虑了，GPT-4还取代不了你

2023-04-18 15:50

GPT-4 震撼发布，能读图，考高分，训练更高效

2023-04-18 15:47

相关文章

专访王小川|曾预言过ChatGPT方向，年内推出中国版ChatGPT PRO..

ChatGPT引燃了一轮AI创业潮，无数头顶光环的企业家入局，王小川也是其中..

法媒关注中国国产ChatGPT

据《费加罗报》8月31日报道，百度发布的“中国版ChatGPT”聊天机器人文心..

中国版ChatGPT正在血洗职场：你的饭碗还能端多久？

"我用DeepSeek写周报被主管连夸三天，现在慌得睡不着觉。"凌晨2点，某互..

荐书丨《ChatGPT来了：语言科学如何看待ChatGPT》

ChatGPT来了基本信息副标题：语言科学如何看待ChatGPT作者: 杨旭 / 罗仁..

ChatGPT vs DeepSeek - 中文语法推理

问题：“你这铺馆没字号，就叫狗不理吧。 ” 这句话当中的 “就” 是个介..

ChatGPT时代语料库与术语库建设与应用工作坊

戴光荣博士，广东外语外贸大学教授，原福建工程学院人文学院院长，福建省..

“请不要对我有过高的期望，我仅是一个AI模型”丨对话ChatGPT..

当地时间2023年2月1日，瑞士高中教师参加了关于ChatGPT的研讨会。（视觉..

新闻可信度评估机构：ChatGPT或成传播网络谣言最强工具..

由OpenAI开发的人工智能聊天工具ChatGPT在全球引发广泛关注，众多用户尝..

对话调教ChatGPT，居然变成在线犯罪指南！

关于作者

雷振杍(普通会员)

文章

869

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

02

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

03

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

2023/07/18

04

上海女家长陪睡校长，不雅聊天记录曝光！真是三观尽毁

2023/06/19

05

介绍一个能够免费使用国内chatgpt的插件wetab

2023/04/27

标签云

成员 网址收录40387 企业收录2981 印章生成232077 电子证书1026 电子名片60 自媒体46877

@2022 All Rights Reserved

浙ICP备19035174号-7

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索