> 自媒体 > (AI)人工智能 > 算力直降97%,GPT-3存储只用20MB?!这篇新论文火了
算力直降97%,GPT-3存储只用20MB?!这篇新论文火了
来源:燕语洁心
2025-02-06 11:31:34
133
管理

在深度学习的世界中,每一次技术的突破都是一次新的蜕变。在GPT-4及其家族的成功之后,Will小哥给我们带来了巨大惊喜,这就是他提出的“noise_step”技术!

当我们看到“noise_step”技术的优势后, 可能很多人都不敢相信自己的眼睛!原本需要数百亿个参数、数万亿次浮点运算(FLOPs)才能训练的大型语言模型,使用这项技术只需数百万次浮点运算(FLOPs)即可完成训练!这意味着,算力直降97%,GPT-3的存储只用了20MB……

二、用“noise_step”训练LLM只需20MB存储,下载速度更快

01、“noise_step”训练LLM存储训练步骤,而不是权重

采用“noise_step”训练出的模型不再保存传统的权重参数,而是保存训练步骤和超参数的信息。 在微调时,系统会根据当前任务的需求选择相应训练步骤进行运行,而不是重新训练整个模型。这样不仅减少了存储需求,而且显著提高了下载速度。

GPT-3存储通常需要保存数百亿个参数,而“noise_step”只需保存所需的训练步骤,这相比之下减少了90%的存储需求。

02、“noise_step”训练LLM,小步快跑微调任务更高效

传统的微调过程通常需要重新训练整个模型 ,这不仅耗时耗力,而且对于一些小规模任务来说并不必要。而采用“noise_step”技术后,微调过程变得更加高效, 只需保存训练步骤和超参数进行快速适应即可。

不仅如此, 通过“noise_step”技术,还可以对过去的训练步骤进行修改和调整,从而进一步提高模型的性能,这在传统的训练方法中是无法实现的。

【延伸探讨3】“noise_step”技术的应用,是否会影响对模型可解释性关注?

随着AI技术的不断发展和普及,人们对AI的关注点也不断转移,除了AI的性能和效率外,人们也越来越关注AI的可解释性和透明度。那么,“noise_step”技术的提出,是否会影响人们对AI可解释性的关注呢?

通过“noise_step”技术训练的模型,虽然可以减少模型的存储需求和计算消耗,但也可能会导致模型的可解释性降低。 因此,在设计和应用“noise_step”技术时,还需要考虑如何平衡模型的性能、效率和可解释性。

总之,Will小哥的“noise_step”技术,给我们带来了很多的思考和讨论。通过对这些问题的深入探讨,我们可以更好地理解和应用“noise_step”技术,推动AI的进步和发展。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
关于作者
我是歌王(普通会员)
文章
854
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40386 企业收录2981 印章生成229764 电子证书1009 电子名片58 自媒体46330

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索