达摩院用128张GPU烧出“中文版GPT-3”，我试了下，原来擅长这个-脚本导航

> 自媒体 > （AI）人工智能 > 达摩院用128张GPU烧出“中文版GPT-3”，我试了下，原来擅长这个

达摩院用128张GPU烧出“中文版GPT-3”，我试了下，原来擅长这个

来源：量子位

2023-07-24 16:09:41

472

管理

杨净子豪发自凹非寺量子位报道 | 公众号 QbitAI

首先，请先看一段“正经”的文字：

他笑意中的那份温柔，只想给她好好珍藏，即便这一切不会发生，至少在他的世界里，她是无忧无虑的快乐的。就连他对她的关心，她都不在意了，还有什么不放心的呢？“好，我答应你。不过，如果我们能有个孩子，我一定做个好爸爸。”

桥豆麻袋！！！

这难道不是什么某某天堂、某江文学、某点中文上的小说情节？

误会了误会了。

这是最新发布的全球最大规模中文预训练模型“中文版GPT-3”——PLUG的力作。

270亿的参数规模，跟GPT-3一样是“万能写作神器”。

出于好奇，我第一时间就去上手试了试，没想到只是输入了四个字。

泛起笑意，

有一说一，生成长文本的性能还是相当不错，并且提供了4个文本长度选项（32~512字）。

不过这内容……

难不成，我喜欢XX文的秘密被发现了？

具体来说，整个训练过程分为两个阶段。

第一阶段，以达摩院自研的语言理解模型——StructBERT作为编码器。

简单来说，它是在句子级别和词级别两个层次的训练目标中，加强对语言结构信息的建模，从而提高模型的语法学习能力。

这也使得PLUG具有输入文本双向理解能力，能够生成和输入更相关的内容。

这个过程共训练了300B tokens训练数据。

第二阶段，将这个编码器用于生成模型的初始化，并外挂一个6层、8192个隐藏层节点数的解码器，共计训练了100B tokens的训练数据。

此外，PLUG还能为目标任务做针对性优化。

上一回说到，GPT-3并没有利用微调和梯度更新，而是通过指定任务、展示少量演示，来与模型文本进行交互，完成各种任务。

因此在面对新任务时候，不需要重新收集大量的带标签数据。但不可避免的，生成的效果不足。

比如，犯低级错误就是GPT-3被人诟病比较多的一点。

而PLUG的能力更加全面，既可以实现与GPT-3类似的零样本生成功能，也可以利用下游训练数据微调（finetune）模型，提升特定任务的生成质量。

当然，效果实现的关键，还少不了算力和数据。

PLUG负责人表示，原本计划用128张A100训练120天炼成，不过由于阿里云、算法优化等达摩院多方力量的参与，以及加速手段的有效利用，成功将日程缩短到三分之一。

最后，只烧了35天就达到了这样的效果。

前面也提到，PLUG的参数量达到了270亿，中文训练数据量也达到了1T以上。

在语言理解任务上，PLUG以80.614分刷新了CLUE分类任务榜单记录。

而这样的开源开放，正好是这个技术团队的一大底色。

去年，阿里达摩院发布了自研深度语言模型体系，包括6大自研模型。

通用语言模型StructBERT、多模态语言模型StructVBERT、多语言模型VECO、生成式语言模型PALM……他们一直在致力于陆陆续续将模型开源出来。

永春透露，在PLUG发布这段期间，达摩院宣布将开源阿里巴巴语言模型体系部分重要模型，目前正在走流程中。

至于之后的计划，团队表示2000亿级的参数规模正在规划中，并进一步提升文本生成质量。

而在应用领域，他们还将专门针对医疗领域做下游数据训练。

最终目标是希望将这个模型实际落地，提升NLP技术在方方面面的实力，比如能源、通信、司法等。

也诚如阿里达摩院语言技术实验室负责人司罗所说，

达摩院NLP团队将进一步攻克自然语言处理领域科研难题，完善中文及跨语言人工智能基础设施，让AI没有难懂的语言，并探索通用人工智能之路。

对了，PLUG刚刚完成最后一波调控，目前已开放了测试体验接口（仅供学术目的测试，需同意其相关约定）。

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

ChatGPT人工智能时代的胡乱猜想越想越觉得可怕

2023-07-24 16:11

写作神器还是魔鬼化身？万能语言模型GPT-3起底

2023-07-24 16:07

相关文章

如何用ChatGPT4.0写一篇曝光和阅读量高的公众号文章

1、进阶引导式在文章创作中，有一种进阶引导式提示，它要求创作者模拟一..

赚了用户没赚钱？自称月活4亿背后，ChatGPT概念股汤姆猫“捉襟见肘”..

12日早盘，沪指低开低走失守3300点，ChatGPT概念股回调明显，“热点王”..

微信被好友拉黑了？教你不用对方同意立马找回，太实用..

微信被对方拉黑了咋办？是不是太急人，看不到对方的任何消息还联系不上他..

OpenAI 发布 DALL-E 3 文生图模型：与 ChatGPT 完全集成在细节和提示保真..

站长之家(ChinaZ.com) 9月21日消息:本周三，OpenAI 宣布了 DALL-E 3，这..

突发！ChatGPT之父被开除

全球重量级的AI（人工智能）创业公司突发人事地震。“奥特曼的离职是在董..

日烧70万美元，OpenAI 2024年破产？

作为广为人知的第四次工业革命的先锋、AI浪潮的引领者，OpenAI一直是最近..

这种“爆料吃瓜群”慎入！

为了吸粉引流增加自己账号的粉丝数量有人利用公众猎奇吃瓜的心理编造虚假..

被指作假、诽谤，ChatGPT可能“吃官司”？

中新网4月11日电(甘甜)被指杜撰新闻报道、对他人提出诽谤指控，编造虚假..

OpenAI 发布新语音系统「Whisper 」，英文识别能力可接近人类水平..

图注：方法概述在许多不同的语音处理任务中训练一个序列到序列的转换器模..

关于作者

醉看夕阳(普通会员)

文章

621

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

02

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

03

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

2023/07/18

04

上海女家长陪睡校长，不雅聊天记录曝光！真是三观尽毁

2023/06/19

05

OpenAI突发更新！GPT-3.5正式开放微调，人人可打造专属ChatGPT

2023/08/26

标签云

成员 网址收录40369 企业收录2981 印章生成216706 电子证书945 电子名片57 自媒体34015

@2022 All Rights Reserved

浙ICP备19035174号-7

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索