> 自媒体 > (AI)人工智能 > 揭秘GPT-4核心数据:1.8万亿参数,13万亿训练数据
揭秘GPT-4核心数据:1.8万亿参数,13万亿训练数据
来源:AIGC开放社区
2023-07-14 17:18:15
635
管理

7月11日,半导体咨询研究公司SemiAnalysis发布文章,对OpenAI的GPT-4模型的架构、训练数据集、参数、成本等重要信息进行了深度揭秘。(地址:https://www.semianalysis.com/p/gpt-4-architecture-infrastructure?nthPub=11

文章指出,GPT-4的模型参数在1.8万亿左右、13万亿训练数据、一次训练成本6300万美元等。

SemiAnalysis曾曝光过谷歌的内部文件“我们、OpenAI都没有护城河”,其真实性得到了验证。所以,此次爆料的GPT-4大模型数据,不少人认为比较靠谱。

例如,此次爆料的GPT-4的参数在1.8万亿左右。前几天著名黑客George Hotz在接受采访时表示,GPT-4由8个混合模型组成每个模型参数为2200亿,数据上基本一致。

SemiAnalysis认为,OpenAI一直不对外公布GPT-4的核心数据,并不是因为风险问题,而是GPT-4大模型是可以复制的。事实上,像谷歌、Meta、Anthropic、百度、字节跳动、腾讯等科技公司,都有实力开发出这样的产品。

「AIGC开放社区」根据SemiAnalysis的文章,对GPT-4大模型的核心数据进行了整理,以下内容仅供参考。

模型架构

GPT-4的模型参数大约是GPT-3 (公布参数为1750亿)的10 倍以上。SemiAnalysis认为,其在120 层网络中总共有1.8万亿参数。

OpenAI通过使用混合专家 (MoE) 模型能够将成本保持在合理水平。在GPT-4模型中使用了 16个专家模型,每个MLP专家大约有1110亿个参数。每个前向传递都会路由其中2个专家。

虽然OpenAI在文献中大量论述了用于选择将每个token路由到哪些专家的高级路由算法,但对于当前的 GPT-4 模型来说,OpenAI的算法相当简单。模型中大约有550亿个参数,被用做注意力机制的共享。

每次的前向传播推理(生成一个token)中,GPT-4只需要使用大约2800亿参数和560TFLOPs。相比之下,纯密集模型每次前向传播需要大约1.8 万亿个参数和约3700 TFLOP 的计算量。

关于混合专家模型:混合专家是一种机器学习模型,通过将多个子模型(称为“专家”)的预测结果进行组合,以获得更好的总体预测效果。

MoE模型的基本思想是,不同的子模型可能会在处理不同类型的输入数据时表现出优势。

例如,在处理图像数据时,某些模型可能擅长识别形状,而其他模型可能擅长识别颜色。通过将这些子模型的预测结果混合在一起,MoE模型可以在各种任务中实现更好的性能。

训练数据

OpenAI大约在13万亿token数据上训练了GPT-4。这些训练数据是重复计算之后的结果,多个 Epoch 中的 token 都计算在内。据悉,谷歌的大模型PaLM 2也使用了大约5万亿token的训练数据。

至于为什么不使用完整模型的 FSDP,可能是因为通信开销较高。虽然 OpenAI 在大多数节点之间具有高速网络,但可能并非在所有节点之间都具有高速网络。

训练成本

OpenAI训练GPT-4的FLOPS约为2.15e25,在大约25000个A100上训练了90到100天,利用率在32%到36%之间。故障数量过多也是极低利用率的原因,这会导致需要重新从之前的检查点开始训练。

延迟:模型必须以合理的延迟做出响应。用户不想在等待其输出时,等待很长的时间。预填充(输入token)和解码(输出token)需要不同的时间来处理。

吞吐量:模型必须每秒输出一定数量的token。用户使用时需要每秒大约 30 个token。较低和较高的吞吐量,对于各种其他用例来说都是可以的。

利用率:运行模型的硬件必须达到高利用率,否则成本太高。虽然较高的延迟和较低的吞吐量,可用于将更多的用户请求分组在一起实现更高的利用率,但它们使其变得更加困难。

此外,谷歌的Bard可能也使用了同样的技术,会等待整个序列生成后再将其发送给用户。

视觉多模态

这是一个独立于文本编码器的视觉编码器,二者之间存在交叉注意力,该架构与 Flamingo类似。这在GPT-4的1.8万亿个参数之上增加了更多参数。

GPT-4多模态能力是在文本预训练之后,又用大约2万亿token进⾏了微调。对于视觉模型,OpenAI 本来希望从零开始训练,但由于其尚未成熟,所以他们决定先从文本开始训练来降低风险。据悉,从GPT-5开始,将从头进行视觉训练并且能生成图像,甚至处理音频内容。

这种视觉能力的主要目的之一是,使自主智能体能够阅读网页并转录图像和视频中的内容。他们训练的一部分数据是联合数据(包括渲染的 LaTeX / 文本)、网页的截屏、YouTube 视频(采样帧),并使用 Whisper 对其进行运行以获取转录文本。

1
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
昔日销冠跌出前十,长城汽车魏建军的焦虑与反思
赵永坡也在社交平台上介绍:“哈弗H6车型是国内最早一批可以实现OTA升级..
汽车资讯∣上汽大众全新途观L PRO上市;丰田新款皇冠陆放上市..
◆ 上汽大众途观L PRO售价23.68万元起5月30日,上汽大众全新途观L PRO正..
汽车电瓶能用几年?瓦尔塔、骆驼、风帆怎么选?一次性给你讲清楚..
咱们汽车上都有一个小电瓶,这个小电瓶的作用就是用来启动发动机的,一旦..
试驾全新福特Mustan-性能拉满的大玩具
外形方面,第七代福特Mustang的车顶线条更加低矮,大灯造型也变得更加狭..
未来10年,5大汽车品牌或将挥手告别中国,想买这些车的避免踩坑..
在这个汽车工业飞速演进的时代,中国,这片充满活力与挑战的土地,已悄然..
2024年国际汽车新材料大会落幕
光明网讯5月31日,由中国汽车工程学会、汽车轻量化技术创新战略联盟、芜..
全面拥抱智能化 试驾上汽大众途观L Pro
【太平洋汽车 评测频道】一代神车途观上新啦!这也是途观的第三代车型,..
新车 | 50万元级别插混中大型SUV 方程豹汽车豹8亮相2024粤港澳车展..
文:懂车帝原创 曹浩[懂车帝原创 产品] 6月1日,2024粤港澳大湾区车展开..
没测完就开卖?汽车耐久性测试怎么才算合格?
最近,雷总在直播中透露,小米SU7的测试车目前还在测试中,而且还准备每..
关于作者
舞月(普通会员)
文章
1035
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40404 企业收录2983 印章生成238877 电子证书1061 电子名片60 自媒体58439

@2022 All Rights Reserved 浙ICP备19035174号-7
1
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索