> 自媒体 > (AI)人工智能 > 学习笔记:简单认识一下DeepSeek
学习笔记:简单认识一下DeepSeek
来源:云体验师
2025-02-09 12:08:05
132
管理

2024年12月26日,开源AI模型DeepSeek V3发布就引起了很大关注度。不仅是因为性能够好,更主要是因为它训练成本很低。随后发布的R1版本的推理性能又上了一个台阶,足以挑战OpenAI的o1,因此再次爆火。

DeepSeek V3,低成本高性能表现的国产开源大模型

DeepSeek V3是一个强大的混合专家(MoE)语言模型。它拥有6710亿参数,但在生成每个Token的时候只会激活370亿个参数。

名词解释1:混合专家语言模型

混合专家(Mixture of Experts, MoE)语言模型是一种特殊的模型设计,它的核心思想是“分工合作”。比如,让一个人从头到尾完成一项复杂工作,这个人很难擅长所有环节。于是,你决定组建一个团队,每个人都是某个领域的专家,每部分的任务交给特定的人,也就是让模型的一部分工作。比如,只让370亿个参数工作。

为了提高推理效率和训练成本的可控性,DeepSeek-V3采用了Multi-head Latent Attention (多头潜在注意力)和DeepSeekMoE架构,这些架构在DeepSeek-V2中得到了验证。

名词解释2:多头潜在注意力

多头潜在注意力(MLA)不仅可以更准确地找到重要的信息,而且还知道这些信息之间的关系。就像你和朋友们一起读一本书,每个人负责不同的部分,最后汇总所有人的发现。这样既能更快地完成任务,又能更全面地理解内容。在语言模型中,MLA 帮助模型更好地理解文本,比传统的MHA方法更省计算资源。

DeepSeek V3引入了无辅助损失负载均衡策略(auxiliary-loss-free strategy),旨在优化模型在不同任务间的负载分配,减少负载均衡可能带来的性能下降。同时,它设置了多token预测训练目标(MTP),增强了模型在处理多任务时的表现。

DeepSeek-V3在14.8万亿高质量、多样化的token上进行了预训练,随后通过监督微调和强化学习阶段进一步提升模型的能力。

经过全面评估,DeepSeek-V3超越了Llama 3.1 405B和通义千问 2.5 72B,并接近Anthropic的Claude 3.6 Sonnet和OpenAI的GPT-4o等闭源模型。这也是DeepSeek-V3发布后能快速获得关注的主要原因。

DeepSeek-V3不仅模型性能表现非常优异,而且训练过程非常高效,总共仅用了278.8万H800 GPU机时。最后成本仅为557万美元,远低于其他大型语言模型的训练成本。

事实上,DeepSeek设计了FP8混合精度训练框架,首次验证了FP8训练在极大规模模型上的可行性和有效性。

这点非常重要,如今FP32在大规模训练中的使用逐渐减少,仅在训练过程中关键的梯度计算部分使用,用的最多是FP16,更低的计算精度可以减少内存占用和计算量,从而加速训练过程,但用FP8这种精度的还是非常少的。

总之,DeepSeek通过算法、框架和硬件的共同设计,克服了跨节点MoE训练中的通信瓶颈,几乎实现了计算和通信的完全重叠,大大提高了训练效率并降低了训练成本。完成了一次漂亮的工程实践。

在278.8万H800 GPU机时当中,预训练占了266.4万。后续训练阶段用了10万GPU机时,后训练阶段主要是将DeepSeek-R1系列模型中的推理能力蒸馏到了DeepSeek-V3,显著提升了推理性能。

名词解释3:模型蒸馏

所谓蒸馏,就是将DeepSeek-R1模型作为老师模型,通过向老师模型发送一系列的提示词,得到输出数据。将提示词和回答的数据用来给作为学生模型的DeepSeek-V3做微调,就等于将DeepSeek-R1的知识传递给了DeepSeek-V3。

DeepSeek-R1,对标OpenAI o1模型的推理模型

为了支持学术界的研究,开发团队将DeepSeek-R1-Zero、DeepSeek-R1以及从DeepSeek-R1中蒸馏出的六个精简模型也都开源了。其中,DeepSeek-R1-Distill-Qwen-32B在多个基准测试中超过了OpenAI-o1-mini。

Meta的AI大佬杨立昆则认为,这不是中国AI超越了美国AI,而是开源的模式超越了封闭的模式。DeepSeek将V3和R1都开源给业界的做法显然也是支持这一看法的。

本文主要内容来自DeepSeek Github主页:

https://github.com/deepseek-ai/DeepSeek-V3?tab=readme-ov-file

https://github.com/deepseek-ai/DeepSeek-R1?tab=readme-ov-file

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
细雨入梦(普通会员)
文章
780
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40386 企业收录2981 印章生成230112 电子证书1012 电子名片60 自媒体46802

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索