> 自媒体 > (AI)人工智能 > 爆料!关于GPT-4的参数数量、架构、基础设施、训练数据集、成本
爆料!关于GPT-4的参数数量、架构、基础设施、训练数据集、成本
来源:数据学习DataLearner
2023-07-14 17:26:54
295
管理

本文来自DataLearner:未经证实的GPT-4技术细节,关于GPT-4的参数数量、架构、基础设施、训练数据集、成本等信息泄露,仅供参考 | 数据学习者官方网站(Datalearner)

几个小时前SemiAnalysis的DYLAN PATEL和DYLAN PATEL发布了一个关于GPT-4的技术信息,包括GPT-4的架构、参数数量、训练成本、训练数据集等。本篇涉及的GPT-4数据是由他们收集,并未公开数据源。但是内容还是有一定参考性,大家自行判断。

总结主要的关于GPT-4的信息(总结来自Yam Peleg的推文):

参数数量:GPT-4比GPT-3大10倍,估计参数数量在120层、1.8万亿左右。MoE架构:即Mixture-of-Experts架构,这部分信息已经确认,OpenAI通过利用MoE架构保持一定的成本,包含16个Experts,每一个都是一个MLP.2,约1110亿参数,每个前向传播都被路由到这些专家中MoE路由:尽管公开的技术文档中说了很多高级的路由功能,包括每个token如何选择每个专家等。但是现有GPT-4其实非常简单,大约就是为每个attention共享550亿参数的方式。推理:每一个前向传播的推理(生成一个token)需要2800亿参数以及560 TFLOPS,这与纯dense模型每次正向传递所需的约1.8万亿参数和3700 TFLOPS形成了鲜明对比。训练数据集:GPT-4在约13万亿tokens上训练。这不是指不同的token数量,是根据epochs计算使用的token数量。基于文本的数据集做了2次epoch训练,基于代码的数据集做了4次epoch训练。GPT-4 32K:每一个预训练阶段都是8K的长度。32K的版本是8K预训练模型之后微调得到的。Batch Size:batch size是逐渐上升的,在集群中经过几天的时间达到一个数值。最终,OpenAI的Batch Size达到了6000万!也就是每个专家大约有750万的token数量,但是并不是每个专家都能看到所有的tokens。并行策略:由于NVLink的限制,OpenAI训练GPT-4做了8路tensor并行,15路的pipeline并行。训练成本:OpenAI训练GPT-4的FLOPS约2.15e25,在2.5万个A100上训练了90-100天左右时间(MFU约32%到36%),如果是一个A100约1美元,那么训练成本约6300万美元(如果现在使用H100可能只要2150万美元)。MoE的取舍:使用MoE之后做了很多取舍,包括推理的处理困难,因为每个模型都用来生成文本。这意味着生成的时候有的可以使用,有的空闲,对使用率来说非常浪费。研究显示64-128个专家的损失比16个专家更好。GPT-4的推理成本:比1750亿的Davinchi(GPT-3/3.5系列)高3倍,主要是GPT-4的集群太大,利用率低一点。估计约1k tokens要0.0049美元(128个A100)。MOA:Multi Query Attention,和其他人一样,都是正常使用MOA。因为只需要1个head,显存大大下降,但是32K依然无法在A100 40G运行。持续batching:OpenAI使用可变的batch size和持续batching方法。可以平衡推理成本和推理速度。Vision Multi-Modal:GPT-4的多模态部分是单独一个visiion encoder,带有cross attention。使得1.8万亿的GPT-4的参数扩展到2万亿左右。VisionModel是从头训练的,还不够成熟。Vision部分的一个作用是让代理可以月度网页,然后转换成图片和视频。部分数据是基于Latex与屏幕截屏训练的。还有YouTube视频,包括使用whisper翻译的脚本与抽帧结果。推理架构:推理是在128个GPU集群上运行的,在不同的区域有不同的集群。每个节点有8个GPU,包含1300亿参数的模型。或者说每个GPU少于30GB的FP16、少于15GB的FP8/int8。
1
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
AI前哨|OpenAI CEO威胁退出欧洲市场:不要过度监管AI
阿尔特曼凤凰网科技讯《AI前哨》北京时间5月25日消息,OpenAI CEO萨姆·..
OpenAI用GPT-3与小学生比数学!小模型性能翻倍追平1750亿大模型..
来源:OpenAI编辑:好困 小咸鱼【新智元导读】近日,OpenAI训练了一个系..
“汉语盘点2023”揭晓:ChatGPT当选年度国际词
12月20日,国家语言资源监测与研究中心、商务印书馆、新华网联合主办的“..
“用三秒干一天的活”,ChatGPT已能骗过亚马逊
一些跨境电商卖家将 “跨境电商神器”的殊荣给到了横空出世的ChatGPT。“..
川大美女博士举报与博士后多次发生不正当关系,不雅聊天记录曝光..
近日,一名为“凌某滨”的女子在网上实名举报四川大学实验室负责人苏某,..
OpenAI在中国申请GPT-5商标丨360智脑大模型整体能力一月跃升15%..
AI奇点网丨AI资讯丨AI工具推荐丨AI工具教程提供1000 款AI效率工具丨AIEVA..
OpenAI官方Prompt为何在中文环境下失效:解析与对策
在逆向提示词过程中,最常用的微调技巧是:将英文提示词翻译成中文,同时..
朋友圈疯传,假的!是ChatGPT写的!警方已介入调查
昨天,网络疯传一条关于杭州市政府3月1号取消限行的“新闻稿”。浙江之声..
GPT-4玩《我的世界》15倍速攀科技,不看画面全靠代码操作..
克雷西 发自 凹非寺量子位 | 公众号 QbitAI把GPT-4放进一个虚拟世界会怎..
关于作者
国务院环卫工..(普通会员)
文章
636
关注
0
粉丝
1
点击领取今天的签到奖励!
签到排行

成员 网址收录40369 企业收录2981 印章生成216707 电子证书945 电子名片57 自媒体34015

@2022 All Rights Reserved 浙ICP备19035174号-7
1
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索