如虚如实说｜Deep Seek那么强，用的是什么算法？-脚本导航

Transformer有好几个优点。首先，它可以并行计算，建模速度快。其次，它可以直接捕捉到任意两个信息的关系，搜寻速度快。此外，它可以轻松地扩展到更深的网络和更大的数据集，有强大的泛化能力。开源的AI网站Hugging Face的Transformers库提供了大量预训练模型、源程序、数据和工具，极大地推动了Transformer的普及和应用。

在随后的几年中，Transformer广泛地应用在机器翻译、文本生成、文本分类、图像处理等各个领域。

Chat-GPT用的就是Transformer。我们可以问问Chat-GPT自己：

提问：Chat-GPT用什么算法？

Chat-GPT：

我的模型背后的关键算法涉及先进的机器学习技术，主要使用一种称为Transformer的神经元网络。以下是主要组件：

·标记：将文本分解成更小的单位，如单词或词组；

·嵌入：将其转换为模型可以处理的数字表示；

·注意力机制：这允许模型在进行预测时关注文本的不同部分，有助于理解上下文；

·训练：该模型在大量数据集上进行训练，使用无监督学习来预测句子中的下一个单词、词组或句子；

·微调：在初始训练之后，会按特定任务或数据集对模型进行微调，以提高性能。

让我们回到Deep Seek，它用的是什么算法？我们可以问问Deep Seek自己。不过，它不回答，只叫我们去查它的官网资料。我们可以问问Chat-GPT：

提问：DeepSeek用什么算法？

Chat-GPT：

Deep Seek是一个先进的人工智能模型，它结合了几种创新算法来提高其性能。以下是一些关键组件：

·混合专家（Mixture of Experts, MoE）：该算法只激活特定任务所需的神经网络，提高效率和专业化；

·多头潜在注意（Multi-Head Latent Attention，MLA）：该算法通过识别细微的关系和同时处理多个输入来增强模型处理数据的能力；

·多标记预测（Multi-Token Prediction，MTP）：该算法允许模型一次预测多个标记值，从而提高复杂基准测试的性能。

·8字节（Floating Point 8，FP8）混合精度训练：该算法使用低精度与高精度混合的数字来提高训练效率，平衡了计算速度和精度。

这些算法使Deep Seek能够在各种任务中高效地实现多种功能，包括自然语言处理、编码和数学推理。

由此可见，Deep Seek的成功主要是因为它在算法上的创新。

今后还会有新的“Deep Seek”出现吗？答案是肯定的。首先，Chat-GPT与Deep Seek用的都是基于Transformers架构的注意力算法（如MHA、MoE与MLA）。这类算法还在不断地推陈出新，例如：

其次，大量投资进入AI领域。新的系统不断涌现，目前全球各地的大型AI系统已经有5百多个，国内就有300个。而且规模都在不断增大（图7）。

2020年的GPT-2模型有150亿个参数。

2024年的GPT-3 turbo有1750亿个参数。Deep Seek V3有6710亿个参数。千问（Qwen2）有720亿。埃隆·马斯克（Elon Reeve Musk，1971年—）的Grok3有12,000亿个参数。华裔美国科学家李飞飞（Fei Fei Li，1976年—）的S1模型只有320亿个参数。但这些AI系统都能各显神通。所以，AI不会是一家或数家的天下。

图7，大型AI系统的参数量，纵坐标是以10倍增加的

最后还要一提的是大型AI系统的精度大多在90%左右。以这个成绩考上名校没有问题，但要控制一个机器人风险还是太大。因此必须开发各种各样的应用软件（Agent）。

AI驱动的第四次工业革命才刚刚开始。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

今天，聊聊DeepSeek

3天前

关于「用 DeepSeek 赚钱」的真相（附防割指南）

3天前