重磅！OpenAI被“Open”！GPT-4可复制！-脚本导航

> 自媒体 > （AI）人工智能 > 重磅！OpenAI被“Open”！GPT-4可复制！

重磅！OpenAI被“Open”！GPT-4可复制！

来源：清博智能

2023-07-14 17:17:09

717

管理

“OpenAI并没有魔法，他们所构建的东西是可复制的。”

——先问大模型技术团队

就在今日，被人们吐槽“不够open”的OpenAI，被业内大神扒了个底儿掉！

大神此次公开的信息包括GPT-4的架构、训练和推理的基础设施、参数量、训练数据集、token数量、运维成本、以及使用的混合专家模型（Mixture of Experts，MoE）等非常具体的参数与细节。

在这些信息中，我们可以看到OpenAI在面对不同工程背后如何进行权衡，以及在巨型模型推理时，如何跨越其中最大的瓶颈。

而这些细节的公开，无疑是给了业界一个研究和学习OpenAI技术的机会。

是谁在揭开GPT的秘密？

那么，这些重磅的信息是从何而来的呢？

爆料的来源是SemiAnalysis的两位名叫Dylan Patel和Gerald Wong的撰稿人。他们在文章中详细介绍了这些关于GPT-4的具体信息。

值得一提的是，身为Semi Analysis首席分析师的Dylan Patel，并不是第一次引发业界轩然大波。他此前还曾经参与了谷歌内部文件的泄漏事件。那份文件中提到，“我们没有护城河，OpenAI也没有”，引发了业界对于大公司竞争和AI安全的热烈讨论。

Semi Analysis首席分析师Dylan Patel

这次的泄露事件得到了DeepMind的首席执行官Hassabis的确认，他在接受The Verge的采访时，确认了这份由谷歌工程师泄露的文件的真实性。

这也证明了Dylan Patel具有一些特殊的信息获取渠道，这使得我们有理由相信这次关于GPT-4的爆料同样具有相当的真实性。

总的来说，这次的信息给了我们一次深入了解OpenAI最新技术的机会。我们期待看到这些信息将如何影响AI领域的发展和变革。

GPT-4的模型参数达1.8万亿

GPT-4，OpenAI的最新大规模语言模型，显示出一系列引人注目的特性。首先，它的规模令人震惊，模型参数达到1.8万亿，分布在120层中，相比其前任GPT-3增长了十倍以上。

先前外界猜测的GPT-4参数量

在模型构建过程中，OpenAI采用了混合专家（MoE）模型以保持成本在合理范围内。GPT-4使用了16个专家模型，每个专家模型的MLP大约有1110亿个参数。

其路由算法简洁高效，能将每个标记路由到专家模型的决策依据，并不复杂，有大约550亿个共享参数用于注意力。值得注意的是，在执行每次向前传播推断时，GPT-4只使用大约2,800亿个参数，这相比纯密集模型的1.8万亿参数更为经济。

数据及训练方式

在数据方面，GPT-4的训练数据达到了13万亿个token，包括文本和代码数据，以及来自ScaleAI和OpenAI内部的大量微调数据。在预训练阶段，token设为8,000，之后在微调阶段将token增加到32,000。

训练过程中，OpenAI使用了批处理的方式。批处理大小在早期逐步增大，最后达到了6,000万，这对于GPU资源的利用极具效率。

并行处理技术与训练成本

为了在所有的A100 GPU上实现并行，GPT-4使用了8路张量并行和15路管线并行，这都是并行处理技术的极限。这种并行策略可能涉及了ZeRo阶段1和块级FSDP技术。

训练成本是评估模型效率的重要指标，OpenAI的GPT-4的训练FLOPS大约2.15e25。模型在大约25000个A100上运行了90到100天，使用率大约为32%到36% 。由于大量的失败需要从检查点重新开始，使用率将变得极低。

如果按照每个A100每小时1美元来计算，训练成本将是6300万美元左右。

规模与性能的难题

尽管GPT-4在规模和性能上取得了显著的突破，但其依然面临着一些挑战。

例如，专家模型在推理中非常难以处理，因为并非在每个token生成时都使用模型的每一部分。这意味着当其他部分被使用时，剩余部分可能处于休眠状态。当为用户提供服务时，这会严重影响利用率。

同时，由于更多的专家模型在许多任务上难以泛化，且更难以达到收敛，所以OpenAI选择了较少的专家模型。

因为GPT-4需要更大的集群，所以它的推理成本是其前代产品175B参数Davinchi的3倍，实际上使用效率更低。

GPT-4的视觉能力：

交叉注意力与微调

在视觉能力方面，GPT-4采用了与文本编码器分开的视觉编码器，具有交叉注意力。这种架构与Flamingo相似，增加了更多的参数，并进行了约2万亿个token的微调。

OpenAI希望从头开始训练视觉模型，但由于技术不够成熟，因此决定先从文本开始，降低风险。

总结来说，GPT-4在规模、性能和复杂性方面都做出了重大的突破，但同时也带来了更大的挑战和更高的成本。这无疑将开启人工智能发展的新篇章，我们有理由对此充满期待。

（全文编译请看今日清元宇宙二条）

“先问”点评

清博先问大模型技术团队表示，在这份报告前，黑客George Hotz就爆料过GPT-4是由8个MoE模型组成，这次相比之下更加具体详细，也更具有指导和复现意义。

这份报告也是给了我们中国企业打了一剂强心针，OpenAI并没有魔法，他们所构建的东西是可复制的。

在报告中最吸引我的内容是OpenAI在面临大模型推理时遇到的问题和作出的抉择。

众所周知，大模型在推理时，延迟和推理成本是非常重要的权衡。我们总会希望能在延迟较低、吞吐量足够的情况下，推理成本尽可能小，因此我们从这份报告中看到OpenAI的选择，启发我们团队后续的相关工作。

值得一提的是，其实万亿级别参数的MoE模型，GPT-4并不是第一个。谷歌在2021年发布的Switch Transformers，就是价值1.6万亿的MoE模型。所以OpenAI利用MoE的做法，也是意料之中的。

对于大模型来说，最大的开销不是训练，而是之后长期的服务开销：训练是一次性的，而服务对算力的要求是无穷无尽的。

模型serving的FLOPS要低于训练时的FLOPS，MoE就是一个很显然的选择，可以保证稀疏激活。

人类的大脑也有着类似的设计：功能分区，稀疏激活。我们人去解决一个问题，也只会利用相关的知识，而不是把大脑中所有的知识都用上。

尽管MoE是一个简单明显的选择，但还有很多工作值得我们去做，改进路由算法，降低通信和计算成本，提升训练的稳定性等等。

未来，这些工作也都将是我们先问大模型努力的方向。

参考信息：

1、https://mem.ai/p/weHErOim3P2FNmTEvlMX

2、https://www.semianalysis.com/p/gpt-4-architecture-infrastructure

作者：先问大模型西瓜排版：骆伟玲

图片源于Q仔互联网冲浪所得，若有侵权，后台联系，Q仔滑跪删除~

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

揭秘GPT-4核心数据：1.8万亿参数，13万亿训练数据

2023-07-14 17:18

GPT-4 “炼丹”指南：MoE、参数量、训练成本和推理的秘密

2023-07-14 17:16