用更少GPU完成更多计算量，中文巨量模型源1.0比GPT-3强在哪里？-脚本导航

> 自媒体 > （AI）人工智能 > 用更少GPU完成更多计算量，中文巨量模型源1.0比GPT-3强在哪里？

用更少GPU完成更多计算量，中文巨量模型源1.0比GPT-3强在哪里？

来源：机器之心Pro

2023-05-04 21:59:40

883

管理

机器之心原创

编辑：杜伟

语言大模型的终极目标是什么？

在自然语言处理（NLP）领域，暴力美学仍在延续。

自 2018 年谷歌推出 BERT（3.4 亿参数）以来，语言模型开始朝着「大」演进。国内外先后出现了参数量高达千亿甚至万亿的语言模型，比如谷歌的 T5（110 亿）、OpenAI 的 GPT-3（1,750 亿）、智源研究院的 WuDao2.0（1.75 万亿）……

有人不禁会问，语言模型的参数越来越大，它们究竟能做些什么，又智能到什么程度了呢？

9 月 28 日，浪潮人工智能研究院推出了中文巨量语言模型——源 1.0，让我们看到了语言模型超强的创作能力。

除了轻松应对大多数语言大模型都能完成的对话、故事续写、新闻生成和接对联等任务，源 1.0 还具备风格约束的诗歌创作能力，比如给出李白、杜甫或诗经风格的诗句，模型便能输出相应风格的诗句。堪称诗界的百变大师！

源 1.0 与 GPT-3 的参数量、算力对比。

与此同时，在训练数据方面，源 1.0 不仅爬取了 2017 至 2021 年的网页数据，还使用了开源语料、中文百科和中文书籍等多个数据源，又通过粗筛和精筛，最终得到了一个 5.02TB 的全球最大高质量中文数据集。

训练出来的源 1.0 成功「兑现」了自己的能力，不仅在中文语言理解测评基准 CLUE 中刷榜文献分类、长文本分析等多项任务，更在零样本学习榜的成语阅读理解任务上超越人类水平。

更难能可贵的是，不同于 GPT-3 少量开放 API 的商用思路，浪潮的「源 1.0 开源开放计划」将包括模型 API、高质量中文数据集以及模型训练、推理和应用代码在内的资源向社区开放，还将开展面向国产 AI 芯片的模型移植开发。第一批计划合作对象包括大学或科研机构的 AI 研究团队、元脑生态合作伙伴和智能计算中心等。

开源开放计算官网：https://air.inspur.com/

源 1.0 在模型架构、训练数据、计算能力和训练策略等诸多方面做了哪些与众不同的探索呢？本文将带你深入了解浪潮如何解决源 1.0 背后的技术挑战。

训练源 1.0 解决的二三难事

对于一个语言模型而言，特别是具有千亿级别参数的中文巨量语言模型，首先要考虑它要采用哪种网络结构。在中文 NLP 研究社区，中文巨量语言模型是比较新的工作，因此无法获得有益的借鉴。

为了确定哪种模型结构更适合面向中文的巨量语言模型，浪潮考虑了领域内已有的三种不同类型的预训练模型结构，分别是谷歌 T5 采用的 Encoder-Decoder、OpenAI GPT-3 采用的 Language Model（LM）和 Encoder-Decoder 的变体 Prefix LM。一般来说，Encoder-Decoder 比较适合自然语言生成（NLG）任务，LM 和 PLM 则对自然语言理解（NLU）任务的效果更好。

源 1.0 的模型训练损失（training loss）曲线如下，可以看到，loss 值在前 10B 个 tokens 期间迅速下降，之后下降较慢并趋于稳定，形成一个长尾。并且，源 1.0 的训练损失数值（1.64）小于 GPT-3（1.73）和 PanGu-α（2.49）。

目前，源 1.0 能够生成多种高质量的文本，如对话、新闻稿件、故事续写等。对于这些类别的任务，模型生成的文本与人类创作的内容相差无几，甚至达到了以假乱真的程度。

先以如下对话场景为例，受访者正确分辨出「由模型生成」答案的概率仅为 38.28 %，这意味着源 1.0 在对话任务上做到了非常情景化，回答也接近人的讲话风格。

再来看新闻生成场景，给出摘要，然后续写正文，受访者正确分辨出「由模型生成」新闻的概率为 34.15 %。源 1.0 生成的文本不仅较人类撰写的篇幅更多，显然也更符合新闻用语环境。

但应看到，源 1.0 等大模型的应用场景绝对不会止步于此。12 月 11 日，机器之心举办了 NeurIPS MeetUp China，浪潮信息副总裁、人工智能 & 高性能计算 (AI&HPC) 产品线总经理刘军做了主题为《AI 大模型时代的浪潮思考与实践》演讲。他认为，未来大模型还将可能在更多应用场景中发布作用，如运营商文本类日志和报告的提取和总结、元宇宙中 AI Robot 的语言生成、理解和对话等。

语言大模型的极限在哪里？目前似乎没有哪家科技企业能够清楚地指明。浪潮的源 1.0 中文巨量语言模型，在探索 AI 拟人能力这条路上走出了坚实的一步。

最后，对刘军演讲内容感兴趣的读者，请戳以下视频：

https://v.qq.com/x/page/e3314u8y1l3.html

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

开发者利用GPT-3开发语音助手

2023-05-04 22:00

2457亿参数！全球最大AI巨量模型「源1.0」发布中国做出自己GPT-3

2023-05-04 21:58