> 自媒体 > (AI)人工智能 > 一夜封神!Llama 3.1大模型震撼发布,真正的全民GPT-4时代来了
一夜封神!Llama 3.1大模型震撼发布,真正的全民GPT-4时代来了
来源:智东西
2025-02-05 17:42:59
190
管理

Meta更新了许可证,允许开发人员首次使用包括405B参数规模的Llama模型的输出来改进其他模型。

同时,Meta的开源生态进一步扩张,已经有超过25个企业推出了Llama 3.1新模型。

其中,亚马逊云科技、Databricks和英伟达正在推出全套服务,以支持开发人员微调和训练自己的模型。AI芯片创企Groq等为Meta此次发布的所有新模型构建了低延迟、低成本的推理服务。

同时这些模型将在亚马逊云科技、微软Azure、谷歌云、Oracle等主要云平台上提供服务。

Scale AI、戴尔、德勤等公司已准备好帮助企业采用Llama模型并使用自己的数据训练定制模型。

Llama 3.1 405B不仅是最强开源模型,还有望成为最强模型,开源和闭源的距离再次大大缩短。

02.完整优化训练堆栈,专注于让模型可扩展

为了能基于15万亿个Tokens进行模型训练,同时在合理时间内实现研究人员想要的效果,Meta对训练堆栈进行了完整优化。

在解决上述难题方面,Meta选择专注于保持模型开发过程可扩展并更直接的策略:

1、研究人员选择了标准仅解码器的Transformer模型架构进行小幅调整,而不是采用MoE混合专家模型,可以最大限度提高训练稳定性。

2、研究人员采用了迭代的后训练程序,每轮都使用监督微调和直接偏好优化。这使模型能够为每一轮创建最高质量的合成数据,并提高每项能力的性能。

与此前Llama系列模型相比,Meta改进了用于训练前和训练后的数据的数量和质量。这些改进包括为训练前数据开发更仔细的预处理和管理pipelines、开发更严格的质量保证,以及训练后数据的过滤方法。

正如大语言模型的Scaling Laws(规模定律)所预期的那样,Meta新旗舰模型优于使用相同策略训练的较小模型。Meta还使用405B参数的模型提高了其较小模型的训练质量。

同时,为了支持405B参数模型的大规模推理,研究人员将模型从BF16到FP8进行了量化,有效降低了所需的计算要求,并允许模型在单个服务器节点内运行。

在指令和聊天微调方面,研究人员通过在预训练模型之上进行几轮对齐以生成最终模型,每一轮都涉及监督微调(SFT)、拒绝采样(RS)和直接偏好优化(DPO),其使用合成数据生成来生成绝大多数SFT示例以生成所有功能中更高质量的合成数据。

此外,Meta采取了多种数据处理技术以将这些合成数据过滤到最高质量,这使新模型能够跨功能扩展微调数据量。

在数据方面,研究人员还对数据进行了仔细平衡以生成具有所有功能的高质量模型。例如,在短上下文基准上保证模型质量,使其能扩展到128K上下文长度。

此外,Meta还宣布推出一个整体的Llama系统。该系统除了涵盖Llama模型,还涉及多个组件协调及外部工具调用,以此助开发者开发比基础模型更强的定制产品。

Llama系统将涵盖一系列新组件,包括开源新的安全工具如Llama Guard 3(多语言安全模型)和Prompt Guard(即时注入过滤器)。为了让分散的组件联接起来,Meta还发布了对Llama Stack API的评论请求,这是一个标准接口,以此第三方项目更轻松地利用Llama模型。

对于普通开发者来说,使用405B规模的模型仍是一项挑战,这需要大量的计算资源和专业知识。

基于Llama系统,生成式AI开发不仅仅是提示模型,每个人都应该可以利用405B模型完成更多的任务,包括实时和批量推理、监督微调、针对特定应用评估模型、持续预训练、检索增强生成(RAG)、函数调用、合成数据生成等。

这是Meta迄今为止推出的最大模型,未来将推出更多设备友好的尺寸、更多模式以及在Agent层面的更新。

03.405B大模型爆改Meta AI,Quest智能语音助手升级

现在,Meta旗下的多个终端,比如WhatsApp和Meta AI聊天机器人中都开始使用Llama 3.1 405B。

▲扎克伯格公开信部分截图

一开始,扎克伯格就提到开源模型与闭源模型之间的差距正在逐渐缩小。去年,Llama 2仅与上一代最先进的闭源模型相当。今年,Llama 3可与最先进的模型媲美,并在一些能力上处于领先地位。

从明年开始,他预计Llama模型将成为业内最先进的模型。并且当下Llama系列模型已经在开放性、可修改性和成本效益方面处于领先地位。

在博客中,他回答了为什么开源AI对开发者有利、为什么开源AI对Meta有利、为什么开源AI对世界有利这三大问题。

首先,为什么开源AI对开发者有利?

他认为开发者需要训练、微调自己的模型,以满足各自的特定需求;开发者需要掌控自己的命运,而不是被一家封闭的供应商所束缚;开发者需要保护自己的数据;开发者需要高效且运行成本低廉的模型;开发者希望投资于将成为长期标准的生态系统。

开源AI对Meta的好处在于,Meta的商业模式是为人们打造最佳体验和服务,要做到这一点,他认为必须确保其始终能够使用最佳技术,并且不会陷入竞争对手的封闭生态系统。

同时,开源AI会促使Meta将Llama发展为一个完整的生态系统,并有成为行业标准的潜力。

他还提到,Meta与闭源模型玩家之间的关键区别之一是,出售AI模型访问权限不是Meta的商业模式,这意味着开源不会削减其收入、可持续性发展或继续投资研究的能力。

最后就是Meta拥有悠久的开源项目和成功历史。

关于开源AI模型安全性的争论,扎克伯格的观点是开源AI将比其他选择更安全。他认为开源将确保全世界更多的人能够享受AI带来的好处和机会,权力不会集中在少数公司手中,并且该技术可以更均匀、更安全地应用于整个社会。

05.结语:Meta再度落子,大模型开闭源之争生变

开闭源大模型之争仍在继续……

从Meta Llama 3.1系列模型的发布,可以看出开闭源大模型之间的差距正在缩小,且大有齐头并进、互相赶超之势。作为开源大模型阵营的忠实拥趸者,同时也是技术创新的先锋,Meta从Llama系列模型发布之初,就坚定要打造自己的开源生态圈。同时,相比于此前的Llama模型,此次新模型发布Meta还将在内部组建团队,让尽可能多的开发人员和合作伙伴使用Llama系列。

Meta再度落子,使得开闭源模型之争的定论更加扑朔迷离。但归根结底,在实际应用中,很多企业和开发者会根据具体需求和情况选择使用开源或闭源模型,因此模型的具体能力、适用的真实场景等,还需要时间来证明。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
关于作者
小北(普通会员)
文章
805
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40386 企业收录2981 印章生成229695 电子证书1008 电子名片58 自媒体46281

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索