> 自媒体 > (AI)人工智能 > 1750亿参数,史上最大AI模型GPT-3上线:不仅会写文,答题,还懂数学
1750亿参数,史上最大AI模型GPT-3上线:不仅会写文,答题,还懂数学
来源:机器之心Pro
2023-07-13 16:00:03
561
管理

机器之心报道

机器之心编辑部

时隔一年,OpenAI 放出的预训练语言模型 GPT-3 再次让人刮目相看。

英伟达表示,自 2017 年底发布 Tesla V100 之后,训练最大模型的算力需求增长了 3000 倍。在这里面 GPT-2 也不在最高的位置了,微软今年 2 月推出的 Turing NLG(170 亿参数)、英伟达的 Megatron-BERT(80 亿参数)排名前列。GPT-3 要放进这个表里,尺度表还要再向上挪一挪。

另有网友吐槽,GPT-3 共 72 页的论文长度也令人绝望:

给出新单词「screeg」(挥剑,击剑)。

GPT-3 造出的句子是:我们玩了几分钟击剑,然后出门吃冰淇淋。

也还不错。

接下来,我们再来看 GPT-3 的其他能力。

语法纠错

给出一句带有语法错误的话,让 GPT-3 进行修改。

zero-shot、one-shot、few-shot 设置与传统微调方法的对比。

上图以英-法翻译任务为例,展示了四种方法。该研究将重点放在 zero-shot、one-shot 和 few-shot 上,其目的并非将它们作为竞品进行比较,而是作为不同的问题设置。OpenAI 团队特别强调了 few-shot 结果,因为其中许多结果仅仅略微逊色于 SOTA 微调模型。不过,用 one-shot 甚至有时是 zero-shot 与人类水平进行对比似乎最为公平,这也是未来工作的重要目标之一。

模型和架构

该研究使用了和 GPT-2 相同的模型和架构,包括改进的初始设置、预归一化和 reversible tokenization。区别在于 GPT-3 在 transformer 的各层上都使用了交替密集和局部带状稀疏的注意力模式,类似于 Sparse Transformer [CGRS19]。

为了研究性能对模型大小的依赖性,该研究训练了 8 种不同的模型大小,涵盖 3 个数量级,从 1.25 亿参数到 1750 亿个参数不等,具备 1750 亿个参数的模型即为 GPT-3。

先前的研究 [KMH 20] 表明,在有足够训练数据的情况下,验证损失的缩放比例应该近似为模型大小的光滑幂律函数。这项研究训练了多个不同大小的模型,这使得研究者可以对验证损失和下游语言任务检验该假设。

表 2.1 展示了 8 个模型的大小和架构。这里 n_params 表示可训练参数总量,n_layers 表示层数,d_model 表示每个瓶颈层中的单元数量(在该研究中前馈层总是瓶颈层大小的 4 倍,即 d_ff = 4 ∗ d_model),d_head 表示每个注意力头的维度。所有的模型均使用 n_ctx = 2048 tokens 的语境窗口。

表 2.1:该研究所训练 8 个模型的大小、架构和超参数信息。所有模型一共使用了 3000 亿 token。

为了最大程度地减少节点之间的数据传输,该研究从深度和宽度两个方向进行跨 GPU 模型分割。然后基于跨 GPU 模型布局的计算效率和负载平衡选择每个模型精确的架构参数。先前的研究 [KMH 20] 表明,在合理范围内,验证损失对这些参数并不是特别敏感。

训练数据集

下表介绍了 GPT-3 训练过程中所用的数据集。

表 2.2:用于训练 GPT-3 的数据集。

OpenAI:其实我们也有点玩不起了

最开始是训练不动,后来 finetune 不起,现在到了 GPT-3 模型的时代,我们连 forward 也要不起了。

你肯定想问这样一个问题:训练 GPT-3 模型需要花多少钱?我们目前还只能粗略地估计——训练一个 BERT 模型租用云算力要花大概 6912 美元,训练 GPT-2 每小时要花费 256 美元,但 OpenAI 一直没有透露一共要花多少小时。

相比之下,GPT-3 需要的算力(flops)是 BERT 的 1900 多倍,所以这个数字应该是千万美元级别的,以至于研究者在论文第九页说:我们发现了一个 bug,但没钱再去重新训练模型,所以先就这么算了吧。

但即使这样它的效果依然惊人。

GPT-3 的实验结果,似乎验证了 Richard Sutton 去年颇具争议的论断,他在《苦涩的教训》的最后写道:「我们应该从苦涩的教训中学到一点:通用方法非常强大,这类方法会随着算力的增加而继续扩展,搜索和学习似乎正是这样的方法。」

关于 GPT-3 的更多详情,参见论文:https://arxiv.org/abs/2005.14165

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
捷途旅行者领衔,最低10万出头,5款硬派SUV车型大盘点..
高考结束,又有一帮年轻人迎来了人生中最无忧无虑的三个月。在拿到成绩之..
七大“重磅SUV”即将亮相车展,油车、电车都有,想买车的先等等..
一眨眼,汽车旺季的“金九银十”即将到来。不少想要购车的小伙伴有福了,..
4款“智能SUV”来袭,智界、阿维塔领衔,谁更可能成爆款?..
智能和电动化已经成为大势,近段时间推出的新车中,新能源占到多数,比如..
空间大能耗低,10万块小车功能样样齐,五菱缤果SUV五座版来了..
“人民需要什么,五菱就造什么”。在迎来了人民微车五菱宏光MINIEV、人民..
一家五口出游,建议开大5座SUV,看看这三款,动力强,安全还舒适..
随着生活品质的提升,越来越多的家庭选择通过自驾游来度过难得的假期时光..
奔驰:计划再停售两款SUV!推CLE“SUV版”车型
日前据海外媒体透露,继梅赛德斯-奔驰计划在2026年停售A级、B级入门版车..
9月—12月,即将上市的6款SUV
时间来到9月,此前在成都车展完成亮相的一批新车将在9-12月陆续完成上市..
9月中型SUV扎堆上市,阿维塔07优势在哪?
在长安朱华荣、蔚来李斌、小鹏汽车何小鹏、比亚迪李云飞的花式打call中,..
新车|价格超千万,最大功率可达3043马力!希腊超跑Chaos明年交付..
文:懂车帝原创 周桐[懂车帝原创 产品] 近年来涌现的造车新势力挤占了不..
关于作者
月深沉(普通会员)
文章
932
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40399 企业收录2981 印章生成237432 电子证书1052 电子名片60 自媒体50083

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索