GPT-3被超越？解读低能耗、高性能的GlaM模型-脚本导航

> 自媒体 > （AI）人工智能 > GPT-3被超越？解读低能耗、高性能的GlaM模型

GPT-3被超越？解读低能耗、高性能的GlaM模型

来源：NLP论文解读

2023-05-01 22:27:58

380

管理

©原创作者 | LJ

GLaM: Efficient Scaling of Language Models with Mixture-of-Experts

https://arxiv.org/pdf/2112.06905.pdf

01 摘要

这是上个月谷歌刚刚在arxiv发布的论文，证明了一种能scale GPT-3但又比较节省耗能的架构。

GPT-3自问世以来在多项自然语言处理的任务上都有超强的表现。但是训练GPT-3这样庞大的模型非常耗费能源。

在这篇论文中，作者开发了以Mixture of Experts为基础的GlaM (Generalist Language Model)。它虽然参数量有GPT-3的7倍之多，但训练起来只需GPT-3三分之一的能耗，而且在NLP任务的表现上相比GPT-3持平甚至更优。

02 什么是Mixture of Experts Model (MoE）

MoE这个概念其实已经提出很久了。这个概念本身非常容易理解，有点类似ensemble：与其训练一个模型，我们训练数十个独立的“专家模型”(expert model)。

与简单的ensemble不同的是，在做训练或推断(inference)的时候，我们用一个gating network来“挑选专家” — 在几十个专家模型中挑选出几个适合的专家模型用来计算。通俗的讲，这些专家“术业有专攻”，根据所长而分工。

那么，为什么MoE可以省能耗呢？因为无论是训练或者推算的时候，每次真正的计算只有几个专家被激活。所以，虽然参数量很大，但每次用到的参数只是很小的一部分。

这个团队在2017年在一篇ICLR的论文[1]里已经把MoE的概念应用在了当时NLP state-of-the-art的RNN model上，并且超越了当时的state of the art。

这次，因为GPT-3的发布，作者又将MoE的概念应用在GPT-3这样以transformer为基础的模型上。

GLaM在29个自然语言的任务上总的来说相比GPT-3略胜一筹。最重要的是训练的总能耗仅仅是GPT-3的三分之一。

以TriviaQA任务举例，上图中Dense指的是类似GPT-3架构的单个模型。Dense和MoE model的准确率都会因为参数量增长而增长。但是在相同的运算量下（横轴），MoE总是表现得更好。

4.2. 需要多少专家模型

相比于dense model，MoE如果想scale的话不仅可以将模型变得更宽更深，还可以增加专家的数量。只要每次被激活的专家数量不变，增加专家并不增加prediction时的运算量。

上图中，作者控制每次prediction的计算量不变，调整不同的专家数量。一般看来，专家越多，模型表现越好。

05 总结

总的来说，作者开发了以MoE为基础的GLaM模型。虽然模型参数量很多，但通过激活少量的专家，这类的模型训练和推算的能耗更低，而且结果比GPT-3更好。

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

昆仑万维正式发布AIGC全系列算法与模型

2023-05-01 22:29

少于两层的transformer，且只有注意力块，GPT-3：你怕不是搞事情？

2023-05-01 22:26

相关文章

注意！你的邻居可能是假的！

如今不少小区都有业主群除了物业通知小区的相关事宜也有遇到难事求助的邻..

中国有没有ChatGPT?

东方步AGI通用人工智能领域学者大数数据分析师最近很多人问，为什么国外..

ChatGPT，搞培训的赚到第一笔钱

而且有些朋友也发现，关于ChatGPT的动态从一开始的火山式爆发到现在已经..

人称“GPT-4最强平替”的Llama 2，究竟厉害在哪里？

智东西编译 | 铭滟编辑 | 徐珊智东西7月26日消息，据The Information报道..

ChatGPT机器人颠覆西方伪史，鸡毛里藏着猴屁股……

作者：徐吉军公众号：汉唐光辉最近，美国开放智能公司推出了ChatGPT聊天..

ChatGPT客户端上线app store，国内无法下载

相信大家在app store中见到过无数“ChatGPT客户端”，现在ChatGPT官方客..

女老板出轨员工，两人不雅聊天记录曝光，内容露骨不堪入目..

本文内容来源于网络，如果与事实不符，请联系删除。众所周知，无论什么样..

复旦放大招：国内首个类ChatGPT来了，名字叫“MOSS”！邀公众参与内测..

每经记者：姚亚楠文巧每经编辑：程鹏,盖源源2023年开年，ChatGPT迅速火..

Open AI正式上线GPT Store！AI大模型应用或将迎来新一轮热潮，AI人工智能ET..

截至2024年1月11日 09:53，中证人工智能主题指数(930713)强势上涨2.00%，..

关于作者

横道不笑(普通会员)

文章

624

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

02

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

03

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

2023/07/18

04

上海女家长陪睡校长，不雅聊天记录曝光！真是三观尽毁

2023/06/19

05

OpenAI突发更新！GPT-3.5正式开放微调，人人可打造专属ChatGPT

2023/08/26

标签云

成员 网址收录40369 企业收录2981 印章生成216706 电子证书945 电子名片57 自媒体34015

@2022 All Rights Reserved

浙ICP备19035174号-7

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索