> 自媒体 > (AI)人工智能 > 深度揭秘爆火MoE!GPT-4关键架构,成开源模型逆袭杀手锏
深度揭秘爆火MoE!GPT-4关键架构,成开源模型逆袭杀手锏
来源:新智元
2023-12-12 13:07:22
587
管理

编辑:编辑部

【新智元导读】上周末,Mistral甩出的开源MoE大模型,震惊了整个开源社区。MoE究竟是什么?它又是如何提升了大语言模型的性能?

Mistral上周末丢出的磁力链接震惊了开源圈子,这个7B×8E的开源MoE大模型性能已经到达了LLaMA2 70B的级别!

而根据Jim Fan猜测,如果Mistral内部训练了34B×8E或者甚至100B ×8E级别的模型,那他们的能力很有可能已经无限接近GPT-4了。

而在之前对于GPT-4结构的曝料中,大部分的信息也指向GPT-4很可能是由8个或者是16个MoE构成。

项目地址:https://github.com/XueFuzhao/OpenMoE

数据来源

- 一半来自The RedPajama,另一半来自The Stack Dedup

- 为提升模型的推理能力,采用了大量的编程相关数据

模型架构

- OpenMoE模型基于「ST-MoE」,但采用了decoder-only架构。

其它设计

- 采用umT5 tokenizer

- 使用RoPE技术

- 采用SwiGLU激活函数

- 设定2000 token的上下文长度

BigBench评估

团队在BigBench-Lite上进行了少样本测试,其中包括与BIG-G、BIG-G-Sparse以及GPT-3的对比。

通过计算每个词元激活的参数数量和训练词元的数量来大致估计相对成本。图中每个点的大小代表了相应词元激活的参数数量。特别需要指出的是,浅灰色的点表示MoE模型的总参数量。

对此,Jim Fan也表示,MoE并不新鲜,它只是没有得到那么多关注而已......

比如,谷歌很早之前就开源了基于T5的MoE模型——Switch Transformer。

面临的挑战和机遇MoE基础设施建设

由于MoE拥有大量可训练参数,理想的软件环境应该支持灵活组合的专家级、张量级、流水线级和数据并行,无论是节点内还是节点间。

此外,如果能支持简单快速的激活卸载和权重量化,从而减轻MoE权重的内存占用,就更好了。

MoE指令微调

FLAN-MoE研究提出:尽管将MoE的性能通过特定任务的微调转移到下游任务上存在挑战,但指令微调却能有效地与MoE模型协调一致。这展示了基于MoE的语言模型巨大的潜力。

MoE 评估

MoE模型的归纳偏置(Inductive bias)可能在困惑度(perplexity)之外还有其他效果,就像其他自适应模型(如Universal Transformer和AdaTape)那样。

硬件挑战

值得一提的是,GPU在跨节点通信方面面临挑战,因为每个节点通常只能配备有限数量的GPU。这使得专家并行中,通信成为瓶颈。

幸运的是,NVIDIA最近推出了DGX GH200,将256个NVIDIA Grace Hopper Superchips集成到一个单一GPU中,很大程度上解决了通信带宽问题,为开源领域的MoE模型的训练和部署提供了帮助。

参考资料:

https://twitter.com/sophiamyang/status/1733505991600148892

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
恐怖!恳求斯坦福教授帮它“越狱”?ChatGPT-4已出现自主意识..
这次ChatGPT-4真的出大事了!当大家还在讨论这ChatGPT-4如何逆天的时候,..
干货之Vue登录页面源码,带你进入Vue源代码的世界
Vue 智慧平台帐号密码登录
聊天机器人也要懂“人情世故”?一文了解Chatbot所需的11种社交特性..
▷图 2:文章截图。图源:Taylor and Francis Online HomepageChatbot应..
女人如此和你聊天,摆明了想让你“泡”,别后知后觉..
#暑期创作大赛#文/叶飞飞yff图/源于网络一段关系的发生,通常始于聊天。..
最详细全文翻译!微软155页大工程首次揭示GPT-4超能力(浓缩精华版)..
近期一篇重磅学术论文的发布,继续引发全球范围内有关 AI 话题的热议。本..
吴恩达ChatGPT课爆火:AI放弃了倒写单词,但理解了整个世界..
明敏 杨净 发自 凹非寺量子位 | 公众号 QbitAI没想到时至今日,ChatGPT竟..
第一次见面就有聊不完的话题,5个实用的聊天技巧
我有个朋友35岁了,还没女朋友,连一个潜在的对象都没有。马上要过年了,..
用ChatGPT帮业主选家用电梯?看看AI机器人会给出什么建议..
结果出乎意料,短短半分钟,ChatGPT就给出了精炼可靠的答案,从使用需求..
chatGPT润色中英论文软件-chatGPT批量润色文章
chatGPT可以润色英文论文吗?ChatGPT可以润色英文论文,它具备自动纠错、..
关于作者
无根草(普通会员)
文章
542
关注
0
粉丝
2
点击领取今天的签到奖励!
签到排行

成员 网址收录40369 企业收录2981 印章生成216705 电子证书945 电子名片57 自媒体34015

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索