> 自媒体 > (AI)人工智能 > 深度揭秘爆火MoE!GPT-4关键架构,成开源模型逆袭杀手锏
深度揭秘爆火MoE!GPT-4关键架构,成开源模型逆袭杀手锏
来源:新智元
2023-12-12 13:07:22
404
管理

编辑:编辑部

【新智元导读】上周末,Mistral甩出的开源MoE大模型,震惊了整个开源社区。MoE究竟是什么?它又是如何提升了大语言模型的性能?

Mistral上周末丢出的磁力链接震惊了开源圈子,这个7B×8E的开源MoE大模型性能已经到达了LLaMA2 70B的级别!

而根据Jim Fan猜测,如果Mistral内部训练了34B×8E或者甚至100B ×8E级别的模型,那他们的能力很有可能已经无限接近GPT-4了。

而在之前对于GPT-4结构的曝料中,大部分的信息也指向GPT-4很可能是由8个或者是16个MoE构成。

项目地址:https://github.com/XueFuzhao/OpenMoE

数据来源

- 一半来自The RedPajama,另一半来自The Stack Dedup

- 为提升模型的推理能力,采用了大量的编程相关数据

模型架构

- OpenMoE模型基于「ST-MoE」,但采用了decoder-only架构。

其它设计

- 采用umT5 tokenizer

- 使用RoPE技术

- 采用SwiGLU激活函数

- 设定2000 token的上下文长度

BigBench评估

团队在BigBench-Lite上进行了少样本测试,其中包括与BIG-G、BIG-G-Sparse以及GPT-3的对比。

通过计算每个词元激活的参数数量和训练词元的数量来大致估计相对成本。图中每个点的大小代表了相应词元激活的参数数量。特别需要指出的是,浅灰色的点表示MoE模型的总参数量。

对此,Jim Fan也表示,MoE并不新鲜,它只是没有得到那么多关注而已......

比如,谷歌很早之前就开源了基于T5的MoE模型——Switch Transformer。

面临的挑战和机遇MoE基础设施建设

由于MoE拥有大量可训练参数,理想的软件环境应该支持灵活组合的专家级、张量级、流水线级和数据并行,无论是节点内还是节点间。

此外,如果能支持简单快速的激活卸载和权重量化,从而减轻MoE权重的内存占用,就更好了。

MoE指令微调

FLAN-MoE研究提出:尽管将MoE的性能通过特定任务的微调转移到下游任务上存在挑战,但指令微调却能有效地与MoE模型协调一致。这展示了基于MoE的语言模型巨大的潜力。

MoE 评估

MoE模型的归纳偏置(Inductive bias)可能在困惑度(perplexity)之外还有其他效果,就像其他自适应模型(如Universal Transformer和AdaTape)那样。

硬件挑战

值得一提的是,GPU在跨节点通信方面面临挑战,因为每个节点通常只能配备有限数量的GPU。这使得专家并行中,通信成为瓶颈。

幸运的是,NVIDIA最近推出了DGX GH200,将256个NVIDIA Grace Hopper Superchips集成到一个单一GPU中,很大程度上解决了通信带宽问题,为开源领域的MoE模型的训练和部署提供了帮助。

参考资料:

https://twitter.com/sophiamyang/status/1733505991600148892

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
女店长出轨保安,两人不雅聊天记录曝光,内容极其露骨..
蓝婷(化名)是一个非常漂亮的女人,她从小就美丽聪明,是在人们夸赞中成..
范渊:ChatGPT为AI在安全上的应用带来启示
安恒信息董事长范渊。受访者供图新京报贝壳财经讯(记者罗亦丹)5 月7日..
“我会孤独终老”70岁阿姨账号被封,撕开老年人最残忍的真相..
前不久,看到一则新闻,我的心里很不是滋味。来自重庆的70岁李阿姨,因为..
ChatGPT爆火,未来的机器人时代会是什么样?
最近,有一个叫ChatGPT的词频频出现在眼前,这几天微博上关于ChatGPT的热..
网恋“高富帅”带你投资?小心被“养猪”!
8月底,椒江的林女士在婚恋网站上结识了自称在香港从事IT行业的施阳,几..
Humane 正式推出 AI Pin:一款由 OpenAI GPT-4 驱动的人工智能可穿戴设备..
站长之家(ChinaZ.com) 11 月 10 日消息:Humane 公司于当地时间周四揭开了..
维基百科:ChatGPT or Not?这是一个问题
维基百科胜在知识结构清晰,ChatGPT 长于具体问题,双方未必不可调和。22..
干货 | ChatGPT 4.0插件Review Reader,秒杀一切选品神器
Hi! 大家好,我是专注于AI项目实战的赤辰,今天继续跟大家介绍另外一款GP..
连上多个热搜!火爆全网的ChatGPT到底是个啥?
#ChatGPT让苹果急了##美国89%的大学生都是用ChatGPT做作业##ChatGPT被多..
关于作者
无根草(普通会员)
文章
409
关注
0
粉丝
2
点击领取今天的签到奖励!
签到排行

成员 网址收录40334 企业收录2981 印章生成191019 电子证书816 电子名片51 自媒体24671

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索