在Scaling Transformers用稀疏性就足够了！“有了这样的研究，我们以后或许能在笔记本电脑上托管 GPT-3”-脚本导航

> 自媒体 > （AI）人工智能 > 在Scaling Transformers用稀疏性就足够了！“有了这样的研究，我们以后或许能在笔记本电脑上托管 GPT-3”

在Scaling Transformers用稀疏性就足够了！“有了这样的研究，我们以后或许能在笔记本电脑上托管 GPT-3”

来源：雷峰网

2023-06-03 23:01:08

736

管理

具有 17B 参数的 Terraformer 的单个令牌的解码速度比密集基线模型快 37 倍，推理所需的时间少于 100 毫秒/令牌。这里注意力稀疏 = 64，ff-稀疏 = 256，损失稀疏 = 4

稀疏化的收益非常好。然而，当解码较长的序列时，它们会更糟，因为解码时间将由注意力操作控制。

幸运的是，已经提出了许多方法来解决 Transformer 的这个问题，例如LSH（Locality-Sensitive Hashing）注意处理长序列和可逆层以提高内存效率。我会说这不是个微不足道的结果！

这篇论文还对用于提高 Transformer 效率的其他技术进行了有趣的概述。我在这里报告了它的一些摘录，我认为它可以作为那些不熟悉 Transformer 技术效率的人的参考。

模型压缩。模型修剪通过在训练之后或训练期间移除不需要的权重来使矩阵更小。

模型蒸馏。模型蒸馏包括在先前训练的大模型（即教师）的输出上训练一个小模型（即学生）。用于移动推理的几种自然语言模型依靠蒸馏来加速从预先训练的大型模型中进行推理。

稀疏注意力。基于稀疏注意力的方法通过合并额外的组合机制或选择该层所关注的标记子集，使注意力层更加高效，尤其是对于长序列。

稀疏前馈。关键思想是将前馈层划分为多个部分（称为专家），每个令牌只检索一个部分，这降低了前馈块的复杂性。这些加速主要以训练速度来衡量，并且该方法侧重于前馈块。专家方法的混合已被证明可以在训练中实现计算效率，扩展到一万亿个参数。

虽然目前的结果有许多局限性。尽管如此，这篇论文可以被认为是通往可持续大型模型的第一步。

大家怎么看？

参考资料

https://medium.com/nlplanet/two-minutes-nlp-scaling-transformers-with-sparsity-5bf004a7ea56

https://arxiv.org/abs/2111.12763

https://openreview.net/forum?id=-b5OSCydOMe

雷峰网

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

#新闻拍一拍# 大学生用 GPT-3 生成伪文章成功骗过众人

2023-06-03 23:01

OpenAI开发出新语言生成器GPT-3

2023-06-03 22:59

相关文章

苹果开发GPT聊天机器人的消息传出后公司值增加了 710 亿美元..

苹果公司目标通过自己的聊天机器人成为 OpenAI 的 ChatGPT 未来的竞争对..

爆火的ChatGPT，能让自动驾驶更快实现吗？| 钛媒体深度..

最近，科技圈最火的话题莫过于“ChatGPT”。不过，ChatGPT只是一种外在表..

马斯克xAI创始成员国内首发声：ChatGPT时代「乱世出英雄」..

萧箫西风发自凹非寺量子位 | 公众号 QbitAI马斯克组局xAI“钻研宇宙本..

一文讲清楚什么是 ChatGPT？它会抢走我们的工作吗？

世界经济论坛的 2020 年就业未来报告估计，到 2025 年，虽然人工智能和机..

Altman：OpenAI 还没有开始训练 GPT-5 大模型

品玩6月8日讯，据 TechCrunch报道，OpenAI 首席执行官 Sam Altman 近日表..

0基础CHAT GPT速成，网络小白也能轻松玩转的14个副业

作为一个聊天机器人，问和答，就是 ChatGPT 的产品模式。你来问，它来答..

让人舒服死的聊天技巧

最强聊天机器人来了，能写情书、改错别字、编代码！明天，ChatGPT抢走我饭..

每经记者：可杨文巧图片来源：推特截图一位名叫Zac Denham的博主甚至让..

ChatGPT升级到4.0版，AI将如何冲击劳动力市场？重塑何种技能？..

GPT-4 正式发布3月15日，ChatGPT背后的创业公司OpenAI发布新一代的多模态..

关于作者

轻随风之舞..(普通会员)

文章

640

关注

0

粉丝

1

点击领取今天的签到奖励!

猜你喜欢

01

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

02

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

03

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

2023/07/18

04

上海女家长陪睡校长，不雅聊天记录曝光！真是三观尽毁

2023/06/19

05

OpenAI突发更新！GPT-3.5正式开放微调，人人可打造专属ChatGPT

2023/08/26

标签云

成员 网址收录40369 企业收录2981 印章生成216707 电子证书945 电子名片57 自媒体34015

@2022 All Rights Reserved

浙ICP备19035174号-7

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索