DeepSeek的团队成员大多来自清华大学、北京大学、中山大学、北京邮电大学等国内顶尖高校,整体呈现出“年轻高学历、注重开源、重视创新”的特点。
根据彭博社报道,DeepSeek 的 AI 助手在 140 个市场中成为下载量最多的移动应用。根据Appfigures 的数据,DeepSeek 的推理人工智能聊天机器人在1月 26 日登上苹果公司 AppStore 的榜首并保持全球第一,1月28日起在美国的 AndroidPlayStore 中也位居榜首。根据 SensorTower的数据,DeepSeek 在发布后的前 18 天内获得了 1600万次下载,约为 0penAI的 ChatGPT 发布时900万下载量的两倍,印度贡献了所有平台下载量的 15.6%。
在用户体验方面,DeepSeek 表现不俗。用户普遍认为 DeepSeekR1 的性能出色,特别是在数学推理、编程能力和自然语言理解等领域。其推理速度和准确度在多个测试场景中达到业界领先水平此外,DeepSeekR1 的“聪明”特性使得用户无需复杂的提示词技巧,即可获得高质量的回答。在实际使用场景中,无论是游戏、视频播放还是日常工作的辅助,其流畅的操作体验都得到了用户的高度评价。用户反馈显示,DeepSeek 界面简洁直观、操作简单,在实时数据推送和内容推荐上十分出色能够有效提升工作效率,减少用户在信息检索上的时间投入。
DeepSeekR1 的发布引起了硅谷科技领袖、国际媒体及学术界的广泛关注。其性能和开源策略获得了高度评价,被认为是“非美国公司践行OpenAI 初心”的典范。DeepSeekR1 的发布引发了全球科技市场的连锁反应。其开源策略、低成本、高性能的特性,对科技巨头形成了压力。其训练成本仅为 600万美元,远低于 OpenAI和谷歌等公司的同类模型,《MITTechnologyReview》提到,R1在数学、代码等复杂任务上的表现与 OpenAIo1 相当,而训练成本仅为其 1/70,定价低至 OpenAI的 3%。这种成本效益优势使得更多企业和开发者能够以较低的成本使用先进的 AI 技术,将大大加速 AI技术的普及和应用。
DeepSeek:从硬件竞赛到算法效率革命的技术颠覆在机器学习领域,尤其是大型语言模型(LLMs)的应用场景中,模型性能的提升与模型规模、数据集的大小以及计算资源之间存在着紧密的关联,这一关系通常被描述为“规模定律”(ScalingLaw)。根据规模定律,模型的性能会随着模型规模的指数级增加而实现线性提升。目前,国际上主流的大模型,诸如 OpenAI 的 GPT 系列、Anthropic 的 Claude 以及谷歌的 Gemini 等,其最新版本的规模均已突破千亿参数大关。尽管这些模型在性能上展现出了卓越的表现,但对于众多公司和开发者而言,其高昂的硬件资源使用成本、计算时间等依然构成了巨大的挑战。长期以来,大算力训练一直是基座模型厂商用于融资与构建竞争壁垒的重要手段。
从技术层面来看,GPU等硬件设施效率的提升以及算法的优化等方式,均有望带动大模型成本的显著下降。
在全球 GPU 短缺以及美国限制政策的双重压力下,我国的人工智能公司 DeepSeek通过算法优化的创新路径,进一步降低了训练成本,为大模型的大规模应用提供了前所未有的可能性。
DeepSeek 在 1月 20日正式发布了其 R1模型,并同步开源了模型权重。在第三方的基准测试中,DeepSeek-R1 的表现优于 OpenAI、Meta 和 Anthropic 等美国领先的人工智能公司。
与专有模型不同,DeepSeek-R1 的代码和训练方法均在 MIT 许可下完全开源,这意味着任何人都可以无限制地获取、使用和修改该模型。全球开发者对 DeepSeek-R1 的贡献代码使其推理效率每小时提升 0.3%,这一开放性的举措极大地激发了业界的创新活力。DeepSeek-R1 在芯片资源利用、算法复杂性和推理速度上实现了重大突破,为 AI行业的发展树立了新的标杆。
DeepSeek-R1 的崛起和其所展现出的成本优势和开源策略,一度让华尔街对传统的“烧钱”信仰产生了怀疑。
第二个贡献是强化学习技术不只局限在基于规则的数学、算法代码等容易提供奖励的领域,它还可以创造性地把强化学习所带来的强推理能力,泛化到其他领域。这也是所有用户在实际使用DeepSeek R1进行写作等任务时,能够感受到它有非常强的深度思考能力的原因。
那具体是怎么做的呢?它分了两个阶段
第一阶段还是基于V3基座模型,通过增强推理过程的可读性,能够生成相当于是深度推理的SFT数据;
第二阶段,它又去结合传统的通用SFT数据来微调大模型,再进一步进行强化学习,从而得到了一个具有非常强泛化能力的强推理模型,也就是R1。
DeepSeek-R1的重要贡献体现在两个方面
一是通过规则驱动的方法实现了大规模强化学习
二是通过深度推理SFT数据和通用SFT数据的混合微调,实现了推理能力的跨任务泛化。
DeepSeek-R1在历史上应该是更像是2023年的Meta Llama。它通过开源复现,并且把这些事情公开给全球,让大家能够快速建立起相关能力
具体怎么重叠呢?它采用的是双向流水线机制。下图上方的示意图用的是一个8级流水线、20个micro-batch,从前向和反向两条流水分别去流,然后在中间稳定状态,黄色跟绿色部分就是前项跟反向重叠的阶段。也就是说在这个过程中,可以让计算和通信充分重叠。它也给了一些分析。
同时它还有一些token的路由策略。它用到一个确定性的路由策略,可以非常简单高效。它首先通过IB转发到确定的节点,再通过NVLink转到对应的GPU上,还采用了warp specialization技术。H800里有132个SM,这里是用20个SM来控制通信,用剩下的SM做计算。这20个控制通信的SM,同时还会去动态调整web的数量,会根据通信负载,通过英伟达提供的底层PTX(类似于像汇编层的编程语言),来控制SM使用。
下面介绍内存优化。大模型训练中内存非常重要。DeepSeek团队在优化内存方面想了非常多的办法。比如重计算,提出相应方法,把一些前向计算不去存,反向时再去计算,这样可以节约一些内存使用。同时它还把一些数据,包括像模型参数的指数移动平均,存到CPU内存,这样也是节约GPU显存。
它还有一个机制,就是为了提高模型精度,采用MTP。它把主模型和MTP模块的output head和embedding部署在相同节点,让参数共享。核心是想办法去降低内存。DeepSeek团队没有公布用了多少个节点去做模型训练。对于给定的算力,GPU显存是一个非常珍贵的资源。
另外它为了提升训练的效率,采用了混合精度。它用了英伟达最新FP8,把主要计算量、比较大的核心矩阵乘法都用FP8去计算。但是用这些低精度去做训练,模型可能不收敛,或者导致不管是activation还是weight会有一些outlier的存在。
DeepSeek团队为了减缓outlier影响想了很多办法,比如采用了细粒度量化,对于activation采用tail条形分组量化方式,对于weight采用block分组方式。同时它还通过增加累积精度(FP32)、增加尾数量,以及在线量化策略。这些方式都是为了减缓outlier的影响,来提高模型精度。最后它用FP8低精度达到了模型收敛。
总结:
第一,协同创新,DeepSeek团队充分挖掘了算法、软件、硬件协同创新。比如它采用了MoE架构,但又在算法和软件层面上解决了MoE本身专家并行带来的通信开销问题。
第二,软件灵活,如果大家看DeepSeek论文分享报告,能看到软件是非常灵活的。当我们用某一款硬件,不管是英伟达的还是某一款芯片,它都会有一些限制。这个时候软件能够弥补硬件的很多限制。
第三,系统软件,DeepSeek团队为了降低模型训练成本想了很多的办法。优秀的系统软件可以充分释放底层硬件的潜力,极致优化。包括DeepSeek团队自己也承认,用了很多非常细致的优化。这些也是它通过挖掘一点点的优化,让整个模型的训练效率提升,来降低训练成本。
最后从我个人角度来说,DeepSeek把整个模型开源,能极大促进人工智能领域的飞速发展。有一个非常开源好用的、效果非常好的大模型,我们就可以尝试更多软件相关优化。
相关文章
猜你喜欢
成员 网址收录40386 企业收录2981 印章生成229839 电子证书1011 电子名片58 自媒体46653