> 自媒体 > (AI)人工智能 > 用更少GPU完成更多计算量,中文巨量模型源1.0比GPT-3强在哪里?
用更少GPU完成更多计算量,中文巨量模型源1.0比GPT-3强在哪里?
来源:机器之心Pro
2023-05-04 21:59:40
718
管理

机器之心原创

编辑:杜伟

语言大模型的终极目标是什么?

在自然语言处理(NLP)领域,暴力美学仍在延续。

自 2018 年谷歌推出 BERT(3.4 亿参数)以来,语言模型开始朝着「大」演进。国内外先后出现了参数量高达千亿甚至万亿的语言模型,比如谷歌的 T5(110 亿)、OpenAI 的 GPT-3(1,750 亿)、智源研究院的 WuDao2.0(1.75 万亿)……

有人不禁会问,语言模型的参数越来越大,它们究竟能做些什么,又智能到什么程度了呢?

9 月 28 日,浪潮人工智能研究院推出了中文巨量语言模型——源 1.0,让我们看到了语言模型超强的创作能力。

除了轻松应对大多数语言大模型都能完成的对话、故事续写、新闻生成和接对联等任务,源 1.0 还具备风格约束的诗歌创作能力,比如给出李白、杜甫或诗经风格的诗句,模型便能输出相应风格的诗句。堪称诗界的百变大师!

源 1.0 与 GPT-3 的参数量、算力对比。

与此同时,在训练数据方面,源 1.0 不仅爬取了 2017 至 2021 年的网页数据,还使用了开源语料、中文百科和中文书籍等多个数据源,又通过粗筛和精筛,最终得到了一个 5.02TB 的全球最大高质量中文数据集。

训练出来的源 1.0 成功「兑现」了自己的能力,不仅在中文语言理解测评基准 CLUE 中刷榜文献分类、长文本分析等多项任务,更在零样本学习榜的成语阅读理解任务上超越人类水平。

更难能可贵的是,不同于 GPT-3 少量开放 API 的商用思路,浪潮的「源 1.0 开源开放计划」将包括模型 API、高质量中文数据集以及模型训练、推理和应用代码在内的资源向社区开放,还将开展面向国产 AI 芯片的模型移植开发。第一批计划合作对象包括大学或科研机构的 AI 研究团队、元脑生态合作伙伴和智能计算中心等。

开源开放计算官网:https://air.inspur.com/

源 1.0 在模型架构、训练数据、计算能力和训练策略等诸多方面做了哪些与众不同的探索呢?本文将带你深入了解浪潮如何解决源 1.0 背后的技术挑战。

训练源 1.0 解决的二三难事

对于一个语言模型而言,特别是具有千亿级别参数的中文巨量语言模型,首先要考虑它要采用哪种网络结构。在中文 NLP 研究社区,中文巨量语言模型是比较新的工作,因此无法获得有益的借鉴。

为了确定哪种模型结构更适合面向中文的巨量语言模型,浪潮考虑了领域内已有的三种不同类型的预训练模型结构,分别是谷歌 T5 采用的 Encoder-Decoder、OpenAI GPT-3 采用的 Language Model(LM)和 Encoder-Decoder 的变体 Prefix LM。一般来说,Encoder-Decoder 比较适合自然语言生成(NLG)任务,LM 和 PLM 则对自然语言理解(NLU)任务的效果更好。

源 1.0 的模型训练损失(training loss)曲线如下,可以看到,loss 值在前 10B 个 tokens 期间迅速下降,之后下降较慢并趋于稳定,形成一个长尾。并且,源 1.0 的训练损失数值(1.64)小于 GPT-3(1.73)和 PanGu-α(2.49)。

目前,源 1.0 能够生成多种高质量的文本,如对话、新闻稿件、故事续写等。对于这些类别的任务,模型生成的文本与人类创作的内容相差无几,甚至达到了以假乱真的程度。

先以如下对话场景为例,受访者正确分辨出「由模型生成」答案的概率仅为 38.28 %,这意味着源 1.0 在对话任务上做到了非常情景化,回答也接近人的讲话风格。

再来看新闻生成场景,给出摘要,然后续写正文,受访者正确分辨出「由模型生成」新闻的概率为 34.15 %。源 1.0 生成的文本不仅较人类撰写的篇幅更多,显然也更符合新闻用语环境。

但应看到,源 1.0 等大模型的应用场景绝对不会止步于此。12 月 11 日,机器之心举办了 NeurIPS MeetUp China,浪潮信息副总裁、人工智能 & 高性能计算 (AI&HPC) 产品线总经理刘军做了主题为《AI 大模型时代的浪潮思考与实践》演讲。他认为,未来大模型还将可能在更多应用场景中发布作用,如运营商文本类日志和报告的提取和总结、元宇宙中 AI Robot 的语言生成、理解和对话等。

语言大模型的极限在哪里?目前似乎没有哪家科技企业能够清楚地指明。浪潮的源 1.0 中文巨量语言模型,在探索 AI 拟人能力这条路上走出了坚实的一步。

最后,对刘军演讲内容感兴趣的读者,请戳以下视频:

https://v.qq.com/x/page/e3314u8y1l3.html

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
人工智能ChatGPT爆火背后:以后跟你一起上网的没有真人了?..
12.10知识分子The Intellectual那么,在不少人看来,ChatGPT已经足够好了..
女网红的“部位照片”和露骨聊天内容被曝光!
本文素材来自于网络,若与实际情况不相符或存在侵权行为,请联系删除。【..
ChatGPT下的灰色“生意”,“山寨”才不是我们擅长的
随着ChatGPT在全球爆红一批名字中包含“ChatGPT”的社交公众号、小程序和..
深度 | 深入解读 OpenAI,Elon Musk 解放人工智能的狂野计划..
选自 《连线》作者:CADE METZ机器之心编译参与:原野、吴攀、李亚洲去年..
看完秒懂高情商聊天技巧
工作创业20年,我发现99%的高情商的人都在用这3个方法聊天,不仅人缘特别..
二手交易平台暗藏情色陪聊,平台:无法监测聊天,用户举报会下架..
我们在日常生活中经常会遇到挂羊头卖狗肉的恶心事,可谁会想到,这样的事..
大模型被夸智商就爆表!ChatGPT情商秒杀人类,Hinton预言成真?..
编辑:编辑部【新智元导读】Hinton曾说AI可能有情感,最近的研究表明,Ch..
chatAI:为什么超大城市和特大城市需要进行棚改?
为什么超大城市和特大城市需要进行棚改?超大城市和特大城市进行棚改的原..
(openAI)chatGPT国内能用吗?用5个理由告诉你答案!
ChatGPT 是一个受到广泛关注和应用的智能人工对话程序。它是全球范围内最..
关于作者
唐师(普通会员)
文章
567
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40369 企业收录2981 印章生成216706 电子证书945 电子名片57 自媒体34015

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索