爆料！关于GPT-4的参数数量、架构、基础设施、训练数据集、成本-脚本导航

> 自媒体 > （AI）人工智能 > 爆料！关于GPT-4的参数数量、架构、基础设施、训练数据集、成本

爆料！关于GPT-4的参数数量、架构、基础设施、训练数据集、成本

来源：数据学习DataLearner

2023-07-14 17:26:54

336

管理

本文来自DataLearner：未经证实的GPT-4技术细节，关于GPT-4的参数数量、架构、基础设施、训练数据集、成本等信息泄露，仅供参考 | 数据学习者官方网站(Datalearner)

几个小时前SemiAnalysis的DYLAN PATEL和DYLAN PATEL发布了一个关于GPT-4的技术信息，包括GPT-4的架构、参数数量、训练成本、训练数据集等。本篇涉及的GPT-4数据是由他们收集，并未公开数据源。但是内容还是有一定参考性，大家自行判断。

总结主要的关于GPT-4的信息（总结来自Yam Peleg的推文）：

参数数量：GPT-4比GPT-3大10倍，估计参数数量在120层、1.8万亿左右。MoE架构：即Mixture-of-Experts架构，这部分信息已经确认，OpenAI通过利用MoE架构保持一定的成本，包含16个Experts，每一个都是一个MLP.2，约1110亿参数，每个前向传播都被路由到这些专家中MoE路由：尽管公开的技术文档中说了很多高级的路由功能，包括每个token如何选择每个专家等。但是现有GPT-4其实非常简单，大约就是为每个attention共享550亿参数的方式。推理：每一个前向传播的推理（生成一个token）需要2800亿参数以及560 TFLOPS，这与纯dense模型每次正向传递所需的约1.8万亿参数和3700 TFLOPS形成了鲜明对比。训练数据集：GPT-4在约13万亿tokens上训练。这不是指不同的token数量，是根据epochs计算使用的token数量。基于文本的数据集做了2次epoch训练，基于代码的数据集做了4次epoch训练。GPT-4 32K：每一个预训练阶段都是8K的长度。32K的版本是8K预训练模型之后微调得到的。Batch Size：batch size是逐渐上升的，在集群中经过几天的时间达到一个数值。最终，OpenAI的Batch Size达到了6000万！也就是每个专家大约有750万的token数量，但是并不是每个专家都能看到所有的tokens。并行策略：由于NVLink的限制，OpenAI训练GPT-4做了8路tensor并行，15路的pipeline并行。训练成本：OpenAI训练GPT-4的FLOPS约2.15e25，在2.5万个A100上训练了90-100天左右时间（MFU约32%到36%），如果是一个A100约1美元，那么训练成本约6300万美元（如果现在使用H100可能只要2150万美元）。MoE的取舍：使用MoE之后做了很多取舍，包括推理的处理困难，因为每个模型都用来生成文本。这意味着生成的时候有的可以使用，有的空闲，对使用率来说非常浪费。研究显示64-128个专家的损失比16个专家更好。GPT-4的推理成本：比1750亿的Davinchi（GPT-3/3.5系列）高3倍，主要是GPT-4的集群太大，利用率低一点。估计约1k tokens要0.0049美元（128个A100）。MOA：Multi Query Attention，和其他人一样，都是正常使用MOA。因为只需要1个head，显存大大下降，但是32K依然无法在A100 40G运行。持续batching：OpenAI使用可变的batch size和持续batching方法。可以平衡推理成本和推理速度。Vision Multi-Modal：GPT-4的多模态部分是单独一个visiion encoder，带有cross attention。使得1.8万亿的GPT-4的参数扩展到2万亿左右。VisionModel是从头训练的，还不够成熟。Vision部分的一个作用是让代理可以月度网页，然后转换成图片和视频。部分数据是基于Latex与屏幕截屏训练的。还有YouTube视频，包括使用whisper翻译的脚本与抽帧结果。推理架构：推理是在128个GPU集群上运行的，在不同的区域有不同的集群。每个节点有8个GPU，包含1300亿参数的模型。或者说每个GPU少于30GB的FP16、少于15GB的FP8/int8。

1

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

OpenAI 宣布 GPT-4 API 全面开放使用，将带来哪些影响？

2023-07-14 17:27

揭秘GPT-4；Adobe Firefly AI 扩大测试规模

2023-07-14 17:22

相关文章

昔日销冠跌出前十，长城汽车魏建军的焦虑与反思

赵永坡也在社交平台上介绍：“哈弗H6车型是国内最早一批可以实现OTA升级..

汽车资讯∣上汽大众全新途观L PRO上市;丰田新款皇冠陆放上市..

◆ 上汽大众途观L PRO售价23.68万元起5月30日，上汽大众全新途观L PRO正..

汽车电瓶能用几年？瓦尔塔、骆驼、风帆怎么选？一次性给你讲清楚..

咱们汽车上都有一个小电瓶，这个小电瓶的作用就是用来启动发动机的，一旦..

试驾全新福特Mustan-性能拉满的大玩具

外形方面，第七代福特Mustang的车顶线条更加低矮，大灯造型也变得更加狭..

未来10年，5大汽车品牌或将挥手告别中国，想买这些车的避免踩坑..

在这个汽车工业飞速演进的时代，中国，这片充满活力与挑战的土地，已悄然..

2024年国际汽车新材料大会落幕

光明网讯5月31日，由中国汽车工程学会、汽车轻量化技术创新战略联盟、芜..

全面拥抱智能化试驾上汽大众途观L Pro

【太平洋汽车评测频道】一代神车途观上新啦！这也是途观的第三代车型，..

新车 | 50万元级别插混中大型SUV 方程豹汽车豹8亮相2024粤港澳车展..

文：懂车帝原创曹浩[懂车帝原创产品] 6月1日，2024粤港澳大湾区车展开..

没测完就开卖？汽车耐久性测试怎么才算合格？

最近，雷总在直播中透露，小米SU7的测试车目前还在测试中，而且还准备每..

关于作者

国务院环卫工..(普通会员)

文章

1076

关注

0

粉丝

1

点击领取今天的签到奖励!

猜你喜欢

01

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

02

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

03

DeepSeek 究竟是个啥？一文带你看明白

2个月前

04

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

2023/07/18

05

上海女家长陪睡校长，不雅聊天记录曝光！真是三观尽毁

2023/06/19

标签云

成员 网址收录40404 企业收录2983 印章生成238877 电子证书1061 电子名片60 自媒体58439

@2022 All Rights Reserved

浙ICP备19035174号-7

1

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索