史上最大，人工智能算法模型GPT-3问世，这意味着什么？-脚本导航

> 自媒体 > （AI）人工智能 > 史上最大，人工智能算法模型GPT-3问世，这意味着什么？

史上最大，人工智能算法模型GPT-3问世，这意味着什么？

来源：钛媒体APP

2023-07-15 14:42:07

348

管理

图片来源@视觉中国

文丨谭婧

2020年，年中。

人类历史上最大的人工智能模型，来到人间。

这个体格巨大的北鼻，哭声嘹亮，告知全世界：“我写的作文，几乎通过了图灵测试。”

那些第一次听说参数数量的人，那些第一次翻看实验结果的人，那些第一次口算增长速度的人，在彼此确认了眼神之后，一致的反应是：“哦漏，我大概是疯了吧。不，是人工智能模型疯了吧。”

“不仅会写短文，而且写出来的作文挺逼真的，几乎可以骗过人类，可以说几乎通过了图灵测试。”

如果没有后两个半句，你可能会误认为这是老师对文科生学霸的评语。

理科也超级擅长，还能辅导别人编程。

“以前都是人类去写程序，现在是人类写一个人工智能算法，算法自己从数据中推导出程序。新的人工智能技术路线已经跑通。”

学渣，看破红尘，敲敲木鱼，念出乔布斯的名言：

做个吃货，做个蠢货（Stay hungry，Stay foolish）。

（GPT-3来后的队列）

人工智能超大模型GPT-3和绿巨人浩克一样，都是大块头。

经常观摩，可以治疗颈椎病。

绿巨人GPT-3模型出生于美国Open AI实验室。

在看到自己的论文刷爆了朋友圈后，像他们这么低调的科研团队，一点也没有得意，只是在办公室旋转、跳跃，并巡回炫耀了24小时，而已。

早在2019年，Open AI实验室就发出前方高能预警。

他们核算了自2012年以来模型所用的计算量，从AlexNet模型到AlphaGo Zero模型。AlexNet模型，是冠军模型。AlphaGo Zero模型，是打败韩国围棋九段棋手李世石的那个，它们都是人工智能模型。

参数指标很争气，增长30万倍。

那些堪称“最大”的AI训练模型所使用的计算量，呈指数型增长。

3.4个月就会倍增。这是Open AI实验室的结论。

虽然还没有成为“定律”，但已经有很多人用“摩尔定律”和其比较。

摩尔定律说，芯片性能翻倍的周期是18个月。Open AI说，人工智能训练模型所需要的计算量的翻倍周期是3.4个月。

三个半月，一台计算机就不够了，得两台。掐指一算，618大促买新的机器，双11大促又得买新的了。

对于人工智能的科研工作来说，金钱是个好仆人。

如果你不知道Open AI，那要补补课了。

世界历史上，美国时隔9年第一次使用国产火箭从本土将宇航员送入太空，民营航天企业第一次进行载人发射，马斯克就是这家震惊世界的公司的创始人。

Open AI是全球人工智能顶级实验室，这家机构也曾有马斯克的支持。

此时此景，人工智能超级大模型，赋诗一首：

训练想得意，

先花一个亿。

性能要凶猛，

挥金得如土。

人工智能算法模型“疯狂”增长的背后，究竟意味着什么？

围绕这个问题，我采访了微软亚洲研究院前研究员，一流科技创始人袁进辉博士。

袁博士说了两层意思。

第一层，钱很重要。

袁进辉博士说道：“人工智能模型疯狂增长的背后，意味着人工智能的竞争已经进入到军备竞赛级别。长时间的使用GPU集群是非常花钱的。制造一个像GPT-3这样的超级模型的想法，可能有人能想到，但不是每个团队都有钱验证这一想法。除谷歌之外，很多公司没有财力训练BERT-Large模型，并且，实现这个想法对工程能力要求极高。”

土豪的生活就是这样，朴实无华又枯燥。训练超大GPT-3模型，须使用超大规模GPU机器学习集群。一个人工智能模型训练一次的花销是千万美金，一颗卫星的制造成本被马斯克降到50万美元以下。人工智能模型比卫星成本还昂贵。

土豪的生活又加了一点，土豪也得勤奋。

一般，一个GPU处理一小块数据只需要100毫秒的时间，那么问题就成了，“调度”算法能否在100毫秒的时间内为GPU处理下一小块数据做好准备。如果可以的话， GPU就会一直保持在运算状态。如果不可以，那么GPU就要间歇性地停顿，意味着设备利用率降低。

深度学习训练中的计算任务粒度非常小，通常是数十毫秒到百毫秒级别。换句话说，干活干得快，不赶紧给分派新的任务，大爷就要歇着了。

总歇着，活肯定也干不快，工期长，急死人。

另一方面，深度学习使用的装备太牛逼，不是GPU就是AI芯片，运算速度非常快。

一块GPU芯片单独处理不了，单靠GPU这一类芯片也处理不了。通常是CPU和GPU一块儿工作，CPU 负责任务的调度和管理，而GPU 负责实现计算（稠密），这就是经常说的异构计算（Heterogenous computing）。

但是又有了新问题，GPU 吞吐率非常高，可以是CPU的10倍以上，意味着同样大小的计算任务，GPU可以更快完成。GPU计算的时候，如果每次需要的数都从CPU或者从另外的GPU上拿，就把GPU也拖慢了。

CPU就好比一个吃饭比较慢的人，以前一大锅可以吃很长时间。GPU相当于吃饭特别快的人，现在一次来一小碗，一口就吃下去了。所以，把碗端上桌的速度就非常关键。

CPU和GPU，异口同声说：

“内存墙，How are you（怎么是你）？”

模型太大，就需要把模型拆开。比如说神经网络前几层拆在这个GPU上，后几层拆在另一个GPU上，或者神经网络中某一层被切割到多个GPU上去了。

[怎么切割是一道超纲题，暂（wo）且（ye）不（bu）答（hui）。]

把数据或模型拆分之后，就需要多个GPU频繁互动，互通有无。然而，漏屋偏逢连夜雨，设备互联带宽也不争气，没有实质改进，同机内部PCIe或多机互联使用的高速网的传输带宽，要低于GPU内部数据带宽一两个数量级。

可以用计算和数据传输之间的比例来衡量“内存墙“的压力有多大。计算机系统理论上恰好有一个叫运算强度（Arithmetic intensity）的概念可以刻画，说洋气一点，flops perbyte，表示一个字节的数据上发生的运算量。

只要这个运算量足够大，传输一个字节可以消耗足够多的计算量，那么即使设备间传输带宽低于设备内部带宽，也有可能使得设备处于满负荷状态。

进一步，如果采用比GPU更快的芯片，处理一小块儿数据的时间就比100毫秒更低，比如10毫秒，带宽不变，“调配”算法能用10毫秒的时间为下一次计算做好准备吗？事实上，即使是使用不那么快(相对于TPU 等专用芯片)的GPU，当前主流的深度学习框架对模型并行已经力不从心了。

CPU和GPU，仰天长啸：

“内存墙，How old are you（怎么老是你）？”

“内存墙”带来巨大压力，处理不好，就会造成设备利用率低、整体系统性能差的后果。

理论上，训练框架与硬件平台耦合程度相对较高，深度学习框架需要基于异构硬件支持训练超大规模数据或模型，分布式训练的实际性能高度依赖底层硬件的使用效率。换句话说，解决这个问题，得靠深度学习框架。

内存墙，得解决。没办法，谁让深度学习框架处在上接算法、下接芯片的位子上，在技术江湖里的卡位很关键。

袁博士在“内存墙”上，用白漆画了个大圈，写下一个大大的“拆”字。

他认为，这是深度学习框架最应该解决的问题。人生在世，钱能解决绝大多数问题；但是，不能解决的少数问题，才是根本性的问题。训练超大人工智能模型，有钱就能买硬件，但要有技术，才能把硬件用好。

道理，很简单。

现实，很残酷。

“国内深度学习框架发展水平并不落后，有多家公司开源了水准很高的，这些够用了吗？”

袁博士答道：“现有开源框架直接拿过来，真是做不了大模型这事儿，尤其参数量上到GPT-3模型这个级别的时候。

深度学习模型进入到现在这个阶段，大规模带来的问题，仅靠开源的深度学习框架已经有点吃力了。已有开源分布式深度学习框架无论使用多大规模的GPU集群，都需要漫长的时间（几个月以上）才能训练完成，时间和人力成本极高。

弱者坐失时机，强者制造时机。

“在开源版本上修改，能否满足工业级的用途？”

袁博士回答道：“现在市面上的深度学习框架，有选择的余地，但当前在某些场景（比如，模型并行）改造和定制也力不从心。就比如绿巨人GPT-3这件事儿，直接把现有开源深度学习框架拿来是搞不定的，OpenAI实验室对开源框架做了深度定制和优化，才可能在可接受的时间内把这个实验完整跑下来。”

一般人，只看到了模型开销的昂贵，没有看到技术上的难度。

“单个芯片或单个服务器无法满足训练大模型的需求，这就是所谓的Silicon Scaling的局限性。为解决这个难题，我们必须使用横向扩展的方法，通过高速互联手段把多个服务器连在一起形成计算资源池，使用深度学习框架等分布式软件来协同离散耦合的多个加速器一起高效工作，从而提高计算力的上限。”

袁博士继续解释。

袁博士还特别介绍了解决这个问题对人才的要求，他说：“改造深度学习框架，是一件困难的事。从团队方面来说，算法工程师难招聘，有计算机系统理论背景或者工程能力到位，又懂算法的工程师更难找。挖人也不解决问题。一位算法工程师挖走了，算法的巧思之处被带走了。但是，深度学习框架得把差不多整个团队挖走，才够用。”

“超大模型不是今天才有，也不是今天才被人注意到，而是一直以来就有这个趋势。有远见的人，较早就能看到趋势。最先发现个趋势和最先准备的人，最有机会。”

“很多深度学习框架刚开始研发的时候都没有瞄准这种问题，或者说没有看到这个问题。深度学习框架没有完成的作业，就要留给算法团队去做，考验算法公司技术团队对深度学习框架的改进能力。市面上的情况是，极少数企业搞得定，大多数企业搞不定。”

聊了很久，我抛出最后一个问题。

“GPT-3模型在企业业务里用不到，很多人觉得无用，实验室的玩意而已，其科学意义是什么呢？”

他笑了笑，用一贯低沉的声音说道：“GPT-3模型说明，OpenAI实验室很有科学洞见，不是人人都能想到往那个方向去探索，他们的背后有一种科学理念支持。思考大模型的时候，有一种假设（hypothesis）的方法论，当假设成立，能够解决与之相对应的科学问题。在这个方法论的指导下，勇于探索，肯定不是莫名其妙的一拍脑袋就花千万级别的美金往超大模型的方向上鲁莽的冒险。”

袁进辉把人工智能和人脑做了一个比较。

他说道：

“人类的大脑与我们现在的人工智能自然语言处理模型进行比较：人类大脑有100万亿个突触，这比最大的人工智能模型还要大三个数量级。这个人工智能模型，名叫GPT-3，几乎通过图灵测试了。一直以来，科研团队都在寻找‘能正常工作’的聊天机器人，这个模型让人看到了突破口。”

他在思考，当真正实现了具有百万亿参数的神经网络时，今天人工智能和深度学习模型面临的困难会不会就迎刃而解了呢？机器人进行真正智能对话的日子是不是就快到来了？

说到这里，他眼神中闪过一丝亮光。

在袁进辉看来，这种里程碑式的突破，通常需要杰出团队才能取得。OpenAI想到了，也做到了。它代表了这方面全球的最高水平，探索了能力的边界，拓展了人类的想象力。就像飞船飞往宇宙的最远处，触摸到了人工智能模型参数量增长的边界。

这种模型的问世，就像航天界“发射火箭”一样，成本高，工程要求也高。他们的成功，既实现了理论上的意义，也实现了工程上的意义。

人工智能的希望，在路上。

无论实验怎么苦恼，

无论效果如何不济，

GPT-3模型始终是人类迈向“智能”的无尽长阶上的一级。

没有伟大的愿景，就没有伟大的洞见。

没有伟大的奋斗，就没有伟大的工程。

受访人介绍：

袁进辉，清华大学计算机系博士，一流科技公司（OneFlow）创始人，之江实验室天枢人工智能开源开放平台架构师。曾在微软亚洲研究院从事大规模机器学习平台研发工作，2014年其研发出当时世界上最快的主题模型训练算法和系统LightLDA，被应用于微软在线广告系统。一流科技成立于2017年初，致力于打造深度学习框架的事实工业标准。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

GPT家族进化史

2023-07-15 14:46

除了缺点创意，GPT-3写出了及格大学毕业论文，只需20分钟

2023-07-15 14:36