> 自媒体 > (AI)人工智能 > 在Scaling Transformers用稀疏性就足够了!“有了这样的研究,我们以后或许能在笔记本电脑上托管 GPT-3”
在Scaling Transformers用稀疏性就足够了!“有了这样的研究,我们以后或许能在笔记本电脑上托管 GPT-3”
来源:雷峰网
2023-06-03 23:01:08
736
管理

具有 17B 参数的 Terraformer 的单个令牌的解码速度比密集基线模型快 37 倍,推理所需的时间少于 100 毫秒/令牌。这里注意力稀疏 = 64,ff-稀疏 = 256,损失稀疏 = 4

稀疏化的收益非常好。然而,当解码较长的序列时,它们会更糟,因为解码时间将由注意力操作控制。

幸运的是,已经提出了许多方法来解决 Transformer 的这个问题,例如LSH(Locality-Sensitive Hashing)注意处理长序列和可逆层以提高内存效率。我会说这不是个微不足道的结果!

这篇论文还对用于提高 Transformer 效率的其他技术进行了有趣的概述。我在这里报告了它的一些摘录,我认为它可以作为那些不熟悉 Transformer 技术效率的人的参考。

模型压缩。模型修剪通过在训练之后或训练期间移除不需要的权重来使矩阵更小。

模型蒸馏。模型蒸馏包括在先前训练的大模型(即教师)的输出上训练一个小模型(即学生)。用于移动推理的几种自然语言模型依靠蒸馏来加速从预先训练的大型模型中进行推理。

稀疏注意力。基于稀疏注意力的方法通过合并额外的组合机制或选择该层所关注的标记子集,使注意力层更加高效,尤其是对于长序列。

稀疏前馈。关键思想是将前馈层划分为多个部分(称为专家),每个令牌只检索一个部分,这降低了前馈块的复杂性。这些加速主要以训练速度来衡量,并且该方法侧重于前馈块。专家方法的混合已被证明可以在训练中实现计算效率,扩展到一万亿个参数。

虽然目前的结果有许多局限性。尽管如此,这篇论文可以被认为是通往可持续大型模型的第一步。

大家怎么看?

参考资料

https://medium.com/nlplanet/two-minutes-nlp-scaling-transformers-with-sparsity-5bf004a7ea56

https://arxiv.org/abs/2111.12763

https://openreview.net/forum?id=-b5OSCydOMe

雷峰网

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
轻随风之舞..(普通会员)
文章
640
关注
0
粉丝
1
点击领取今天的签到奖励!
签到排行

成员 网址收录40369 企业收录2981 印章生成216707 电子证书945 电子名片57 自媒体34015

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索