Cerebras 开源七个 GPT-3 模型，参数涵盖 1.11 亿到 130 亿-脚本导航

> 自媒体 > （AI）人工智能 > Cerebras 开源七个 GPT-3 模型，参数涵盖 1.11 亿到 130 亿

Cerebras 开源七个 GPT-3 模型，参数涵盖 1.11 亿到 130 亿

来源：开源中国OSC

2023-05-01 22:04:14

589

管理

出品|开源中国

AI 芯片公司 Cerebras 宣布在 Apache-2.0 协议下开源了一个包含七个 GPT 模型的 Cerebras-GPT，参数涵盖 1.11 亿、2.56 亿、5.9 亿、13 亿、27 亿、67 亿和 130 亿。开放出来的内容包括模型架构、训练算法和权重，供研究以及商业社区免费使用。

“今天的发布旨在供任何人使用和复制...... 人工智能有可能改变世界经济，但它的访问越来越受到限制。最新的大型语言模型 —— OpenAI 的 GPT4 发布时没有关于其模型架构、训练数据、训练硬件或超参数的信息。公司越来越多地使用封闭数据集构建大型模型，并仅通过 API 访问提供模型输出。为了使 LLM 成为一种开放和可访问的技术，我们认为重要的是能够访问对研究和商业应用开放、可重现且免版税的最先进模型。”

根据介绍，这些模型使用 Chinchilla 公式进行训练，可为给定的计算预算提供最高的准确性。Cerebras-GPT 与迄今为止的任何公开可用模型相比，训练时间更快、训练成本更低，并且功耗更低。

Cerebras-GPT 在 Cerebras 所拥有的 Andromeda AI 超级计算机的 CS-2 系统上进行了几周的训练。“训练这七个模型使我们能够推导出新的 scaling law。Scaling laws 根据训练计算预算预测模型准确性，并在指导 AI 研究方面产生了巨大影响。据我们所知，Cerebras-GPT 是第一个预测公共数据集模型性能的 scaling law。”

研究人员评估了 Cerebras-GPT 在几个任务特定的语言任务上的表现，例如句子完成和问答。结果表明，Cerebras-GPT 为大多数常见的下游任务保持了最先进的训练效率。

Cerebras GPT 在 16 个 CS-2 系统上使用了标准数据并行进行训练。研究人员围绕 CS-2 设计了专门构建的 Cerebras Wafer-Scale Cluster，以实现轻松扩展。它使用称为 weight streaming 的 HW/SW 共同设计的执行，可以独立缩放模型大小和集群大小，而无需模型并行。介绍称，通过使用此架构，扩展到更大的集群就像更改配置文件中的系统数量一样简单。

研究人员还在一个名为 Andromeda 的 16x CS-2 Cerebras Wafer-Scale Cluster 上训练了所有 Cerebras-GPT 模型。使所有的实验都能快速完成，而不需要在 GPU 集群上进行传统的分布式系统工程和模型并行调整。最重要的是，它使研究人员能够专注于 ML 的设计而不是分布式系统。“我们相信，轻松训练大型模型的能力是广大社区的关键推动因素，因此我们通过 Cerebras AI Model Studio 在云端提供了 Cerebras Wafer-Scale Cluster。”

Cerebras 联合创始人兼首席软件架构师 Sean Lie 称，由于很少有公司有资源在内部训练真正的大型模型，因此此次发布意义重大。“通常需要成百上千个 GPU，将七个经过全面训练的 GPT 模型发布到开源社区中，恰恰说明了 Cerebras CS-2 系统集群的效率。”

该公司表示，Cerebras LLM 因其开源性质而适用于学术和商业应用。它们还有一些优势，例如其训练权重产生了一个极其准确的预训练模型，可以用相对较少的额外数据为不同的任务进行调整；这使得任何人都可以基于很少的编程知识，创建一个强大的、生成性的 AI 应用程序。

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

回到未来！用童年日记训练AI，这个程序员借助GPT-3实现了与“过去的自己”的对话

2023-05-01 22:07

Meta开源1750亿参数GPT-3，打脸OpenAI？网友点评：GPT-4都要来了

2023-05-01 22:03

相关文章

GAITC 2023专题论坛抢鲜看丨ChatGPT点燃科学计算大模型之火..

科学计算作为一项基础学科，是解决科学研究和工程数学问题最优方案，如今..

和女生聊天怎样才能避免尬聊？不会和女生聊天看这里..

男生在和女生聊天的时候，很容易出现尬聊，如果是长时间出现尬聊的话，女..

ChatGPT+小红书爆文，1天量产100篇笔记

在小红书这样一个内容平台上，如何用chatgpt进行内容营销？又如何更好地..

干货-实战K8S

环境准备（本机）：CPU: CORE i5 内存:8G相关的基础知识，请自行百度一下..

GPT-3 vs Bert vs GloVe 文本嵌入技术的性能对比测试

随着NLP(自然语言处理)的最新进展，OpenAI的GPT-3已经成为市场上最强大的..

摄影教授对话Ai：ChatGPT如何批判中国摄影

《摄影之友》2023年7月新刊出炉！本文节选自《摄影之友》2023年7月刊文：..

GPT-4能考过CET-4吗？谨防AI学术造假引热议

本报记者李乔宇张晓玉“GPT-4能考过CET-4吗？”面对《证券日报》记者的..

ChatGPT火出圈，苹果采摘机器人咋样？

来源：【农民日报】苹果双臂采摘机器人的试验成功，意味着苹果采摘机械化..

OpenAI正在申请注册GPT-5商标，新版本模型发布在即？

GPT-5 可能即将问世结合标题，该应用强烈暗示新的 LLM 正在开发中。然而..

关于作者

秋叶无痕(普通会员)

文章

640

关注

0

粉丝

0

点击领取今天的签到奖励!

猜你喜欢

01

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

02

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

03

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

2023/07/18

04

上海女家长陪睡校长，不雅聊天记录曝光！真是三观尽毁

2023/06/19

05

OpenAI突发更新！GPT-3.5正式开放微调，人人可打造专属ChatGPT

2023/08/26

标签云

成员 网址收录40369 企业收录2981 印章生成216706 电子证书945 电子名片57 自媒体34015

@2022 All Rights Reserved

浙ICP备19035174号-7

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索