> 自媒体 > (AI)人工智能 > 重磅!OpenAI被“Open”!GPT-4可复制!
重磅!OpenAI被“Open”!GPT-4可复制!
来源:清博智能
2023-07-14 17:17:09
499
管理

“OpenAI并没有魔法,他们所构建的东西是可复制的。”

——先问大模型技术团队

就在今日,被人们吐槽“不够open”的OpenAI,被业内大神扒了个底儿掉!

大神此次公开的信息包括GPT-4的架构、训练和推理的基础设施、参数量、训练数据集、token数量、运维成本、以及使用的混合专家模型(Mixture of Experts,MoE)等非常具体的参数与细节。

在这些信息中,我们可以看到OpenAI在面对不同工程背后如何进行权衡,以及在巨型模型推理时,如何跨越其中最大的瓶颈。

而这些细节的公开,无疑是给了业界一个研究和学习OpenAI技术的机会。

01

是谁在揭开GPT的秘密?

那么,这些重磅的信息是从何而来的呢?

爆料的来源是SemiAnalysis的两位名叫Dylan Patel和Gerald Wong的撰稿人。他们在文章中详细介绍了这些关于GPT-4的具体信息。

值得一提的是,身为Semi Analysis首席分析师的Dylan Patel,并不是第一次引发业界轩然大波。他此前还曾经参与了谷歌内部文件的泄漏事件。那份文件中提到,“我们没有护城河,OpenAI也没有”,引发了业界对于大公司竞争和AI安全的热烈讨论。

Semi Analysis首席分析师Dylan Patel

这次的泄露事件得到了DeepMind的首席执行官Hassabis的确认,他在接受The Verge的采访时,确认了这份由谷歌工程师泄露的文件的真实性。

这也证明了Dylan Patel具有一些特殊的信息获取渠道,这使得我们有理由相信这次关于GPT-4的爆料同样具有相当的真实性。

总的来说,这次的信息给了我们一次深入了解OpenAI最新技术的机会。我们期待看到这些信息将如何影响AI领域的发展和变革。

02

GPT-4的模型参数达1.8万亿

GPT-4,OpenAI的最新大规模语言模型,显示出一系列引人注目的特性。首先,它的规模令人震惊,模型参数达到1.8万亿,分布在120层中,相比其前任GPT-3增长了十倍以上。

先前外界猜测的GPT-4参数量

在模型构建过程中,OpenAI采用了混合专家(MoE)模型以保持成本在合理范围内。GPT-4使用了16个专家模型,每个专家模型的MLP大约有1110亿个参数。

其路由算法简洁高效,能将每个标记路由到专家模型的决策依据,并不复杂,有大约550亿个共享参数用于注意力。值得注意的是,在执行每次向前传播推断时,GPT-4只使用大约2,800亿个参数,这相比纯密集模型的1.8万亿参数更为经济。

03

数据及训练方式

在数据方面,GPT-4的训练数据达到了13万亿个token,包括文本和代码数据,以及来自ScaleAI和OpenAI内部的大量微调数据。在预训练阶段,token设为8,000,之后在微调阶段将token增加到32,000。

训练过程中,OpenAI使用了批处理的方式。批处理大小在早期逐步增大,最后达到了6,000万,这对于GPU资源的利用极具效率。

04

并行处理技术与训练成本

为了在所有的A100 GPU上实现并行,GPT-4使用了8路张量并行和15路管线并行,这都是并行处理技术的极限。这种并行策略可能涉及了ZeRo阶段1和块级FSDP技术。

训练成本是评估模型效率的重要指标,OpenAI的GPT-4的训练FLOPS大约2.15e25。模型在大约25000个A100上运行了90到100天,使用率大约为32%到36% 。由于大量的失败需要从检查点重新开始,使用率将变得极低。

如果按照每个A100每小时1美元来计算,训练成本将是6300万美元左右。

05

规模与性能的难题

尽管GPT-4在规模和性能上取得了显著的突破,但其依然面临着一些挑战。

例如,专家模型在推理中非常难以处理,因为并非在每个token生成时都使用模型的每一部分。这意味着当其他部分被使用时,剩余部分可能处于休眠状态。当为用户提供服务时,这会严重影响利用率。

同时,由于更多的专家模型在许多任务上难以泛化,且更难以达到收敛,所以OpenAI选择了较少的专家模型。

因为GPT-4需要更大的集群,所以它的推理成本是其前代产品175B参数Davinchi的3倍,实际上使用效率更低。

06

GPT-4的视觉能力:

交叉注意力与微调

在视觉能力方面,GPT-4采用了与文本编码器分开的视觉编码器,具有交叉注意力。这种架构与Flamingo相似,增加了更多的参数,并进行了约2万亿个token的微调。

OpenAI希望从头开始训练视觉模型,但由于技术不够成熟,因此决定先从文本开始,降低风险。

总结来说,GPT-4在规模、性能和复杂性方面都做出了重大的突破,但同时也带来了更大的挑战和更高的成本。这无疑将开启人工智能发展的新篇章,我们有理由对此充满期待。

(全文编译请看今日清元宇宙二条)

07

“先问”点评

清博先问大模型技术团队表示,在这份报告前,黑客George Hotz就爆料过GPT-4是由8个MoE模型组成,这次相比之下更加具体详细,也更具有指导和复现意义。

这份报告也是给了我们中国企业打了一剂强心针,OpenAI并没有魔法,他们所构建的东西是可复制的。

在报告中最吸引我的内容是OpenAI在面临大模型推理时遇到的问题和作出的抉择。

众所周知,大模型在推理时,延迟和推理成本是非常重要的权衡。我们总会希望能在延迟较低、吞吐量足够的情况下,推理成本尽可能小,因此我们从这份报告中看到OpenAI的选择,启发我们团队后续的相关工作。

值得一提的是,其实万亿级别参数的MoE模型,GPT-4并不是第一个。谷歌在2021年发布的Switch Transformers,就是价值1.6万亿的MoE模型。所以OpenAI利用MoE的做法,也是意料之中的。

对于大模型来说,最大的开销不是训练,而是之后长期的服务开销:训练是一次性的,而服务对算力的要求是无穷无尽的。

模型serving的FLOPS要低于训练时的FLOPS,MoE就是一个很显然的选择,可以保证稀疏激活。

人类的大脑也有着类似的设计:功能分区,稀疏激活。我们人去解决一个问题,也只会利用相关的知识,而不是把大脑中所有的知识都用上。

尽管MoE是一个简单明显的选择,但还有很多工作值得我们去做,改进路由算法,降低通信和计算成本,提升训练的稳定性等等。

未来,这些工作也都将是我们先问大模型努力的方向。

参考信息:

1、https://mem.ai/p/weHErOim3P2FNmTEvlMX

2、https://www.semianalysis.com/p/gpt-4-architecture-infrastructure

作者:先问大模型 西瓜 排版:骆伟玲

图片源于Q仔互联网冲浪所得,若有侵权,后台联系,Q仔滑跪删除~

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
冷熙(普通会员)
文章
322
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40329 企业收录2981 印章生成186788 电子证书796 电子名片49 自媒体20815

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索