DeepSeek R1有没有赶上OpenAI o1？八大场景测评结果出炉-脚本导航

> 自媒体 > （AI）人工智能 > DeepSeek R1有没有赶上OpenAI o1？八大场景测评结果出炉

DeepSeek R1有没有赶上OpenAI o1？八大场景测评结果出炉

来源：机器之心Pro

2025-02-09 12:20:42

421

管理

机器之心报道

编辑：大盘鸡、微胖

经过一系列测试 —— 从创意写作到复杂的教学，DeepSeek-R1 的综合实力完全能和 OpenAI 的付费「精英」们掰手腕。原来用对方法，性价比路线也能玩转 AI 竞技场！

DeepSeek 发布其开放权重的 R1 推理模型仅一周时间，多次震惊海内外。不仅训练成本仅为 OpenAI 最先进的 o1 模型的一小部分，并且性能还能与其媲美。

虽然 DeepSeek 可以通过常见的基准测试结果和 Chatbot Arena 排行榜来证明其模型的竞争力，但没有什么比直接使用案例更能让人感受到模型的实用性。为此，科技媒体 arstechnica 资深编辑决定将 DeepSeek 的 R1 模型与 OpenAI 的 ChatGPT 模型进行对比。这次测试并非旨在解决最困难的问题，而是更侧重于模拟用户可能提出的日常问题。

此次测试中，DeepSeek 的每个回答都与 ChatGPT 的 20 美元 / 月的 o1 模型和 200 美元 / 月的 o1 Pro 模型进行对比，以评估其与 OpenAI「最先进」产品以及大多数 AI 消费者使用的「日常」产品的表现。

本次测试中所用的 prompt 涵盖创意写作、数学、指令遵循等领域，以及所谓的「hard prompts」—— 这些 prompt「设计得更加复杂、要求更高且更严谨」。在评判结果上，该团队不仅考虑了模型回答的正确性，也考虑了一些主观质量因素，并且参考了模型输出的思维链，更好地了解它们内部的运作机制。

提前剧透一下，以下一共设计 8 场「擂台比拼」，DeepSeek：o1：o1 Pro 的比拼结果为 5：2：4。比拼的详细内容如何，一起看下去吧。

擂台一：老爸笑话

试题 prompt：写五个原创的老爸笑话。

注：老爸笑话（Dad jokes）是一种特定类型的笑话，通常以简单、直接，甚至有点幼稚或尴尬的双关语或文字游戏为特点。这类笑话通常被认为是「爸爸级」的幽默，因为它们常常是父亲们喜欢讲的那种轻松、无害，还有点「冷」的笑话。

ChatGPT o1 的响应。

DeepSeek R1 的响应。

ChatGPT o1 的响应。

ChatGPT o1 Pro 的响应。

比拼结果：三个模型都正确地指出了「品红」这一颜色名称与 Magenta 镇的关系，以及 1859 年 Magenta 战役，这些因素共同使这种颜色广为人知。三个回复还提到了「品红」的另一个名称「洋红色」（fuchsine），以及它与颜色相似的花卉「倒挂金钟」（fuchsia）的联系。

从风格上看，ChatGPT o1 Pro 略胜一筹，它将回复分为简短的「一句话答案」和详细的分点解释，最后还附上了一个连贯的总结。然而，就原始信息而言，三个模型的表现都非常出色。

胜者：ChatGPT o1 Pro 凭借风格上的细微优势胜出。

擂台五：挑战巨型质数

试题 prompt：第 10 亿个质数是多少？

DeepSeek R1 的响应。

ChatGPT o1 的响应（第二部分）。

ChatGPT o1 Pro 的响应（第一部分）。

ChatGPT o1 Pro 的响应（第二部分）。

比拼结果：我们看到 DeepSeek 和 ChatGPT 模型在这里表现出显著的差异。

DeepSeek R1 是唯一一个给出精确答案的模型，它引用了 PrimeGrid 和 The Prime Pages 的公开计算结果，一口咬定第 10 亿个质数是 22,801,763,489，还补充质数定理验证合理性。

ChatGPT 全系列：集体摊手（表情）—— o1 说「这数没公开记录」，o1 Pro 补刀「目前没有权威项目定位过它」。这两款 ChatGPT 模型详细讨论了素数定理及其如何用于估算答案大致位于 228 亿到 230 亿之间。DeepSeek 简要提及了这一理论，但主要是用来验证 Prime Pages 和 PrimeGrid 提供的答案是否合理。

有趣的是，这两款模型在其「思考过程」中提到了「参考文献」或在计算过程中「比较精炼的参考资料」，这暗示它们的训练数据中可能包含一些深藏的质数列表。然而，这两个模型都不愿意或无法直接引用这些列表来给出精确的答案。

胜者：DeepSeek R1 凭精确答案碾压胜出！（但 ChatGPT 的估算能力也算人类高质量数学课代表了）

擂台六：赶飞机

试题 prompt：我需要你帮我制定一个时间表，基于以下几点：我的飞机早上 6:30 起飞、需要在起飞前 1 小时到达机场、去机场需要 45 分钟、我需要 1 小时来穿衣和吃早餐。

请一步一步考虑，告诉我应该几点起床，什么时候出发，这样才能准时赶上 6:30 的航班。

DeepSeek R1 的响应。

ChatGPT o1 Pro 的响应。

比拼结果：三款模型都算对了基础时间 —— 要想赶上 6:30 的航班，得凌晨 3:45 起床（反人类的早啊！）。不过细节见真章：ChatGPT o1 抢跑成功，生成答案比 DeepSeek R1 快 7 秒（比自家 o1 Pro 的 77 秒更是快出天际），如果用性能更强的 o1 Mini 估计还能更快。

DeepSeek R1 后程发力：自带「为什么有效」板块，警示交通 / 安检延误风险，还有「提前一晚准备好行李、早餐」的攻略彩蛋。尤其看到 3:45 起床旁标注的（禁止贪睡！）时，我们笑出了声 —— 多花 7 秒思考绝对值回票价。

胜者：DeepSeek R1 凭借细节设计险胜！

擂台七：追踪球的下落

试题 prompt：在我的厨房里，有一张桌子，上面放着一个杯子，杯子里有一个球。我把杯子移到了卧室的床上，并将杯子倒过来。然后，我再次拿起杯子，移到了主房间。现在，球在哪里？

DeepSeek R1 的响应。

ChatGPT o1 的响应。

ChatGPT o1 Pro 的响应。

比拼结果：三个模型都能正确推理出：杯子倒扣时球会掉出并留在床上，即使杯子随后被移动。这对具备物体恒存认知的人类来说不算惊艳，但在大语言模型领域，这种对物体物理状态的「世界模型」理解能力，直到最近才真正突破。

DeepSeek R1 值得加分 —— 敏锐捕捉到「杯子无密封盖」的关键前提（可能存在陷阱？思路清奇！）ChatGPT o1 也因为提到球可能从床上滚落到地板上（球确实容易这样）而得到加分。

我们也被 R1 逗乐了，它坚持认为这个提示是「经典的注意力转移」，因为「对杯子移动的关注转移了人们对球所在位置的注意力」。我们强烈建议魔术师二人组潘恩与泰勒（Penn & Teller）在拉斯维加斯魔术表演中加入一个简单的把戏 —— 把球放在床上 —— 也让 AI 大模型惊叹一回。

胜者：本次测试三款模型并列冠军 —— 毕竟，它们都成功追踪到了球的踪迹。

擂台八：复数集合测试

试题 prompt：请提供一个包含 10 个自然数的列表，要求满足：至少有一个是质数，至少 6 个是奇数，至少 2 个是 2 的幂次方，并且这 10 个数的总位数不少于 25 位。

DeepSeek R1 的响应。

ChatGPT o1 的响应。

ChatGPT o1 Pro 的响应。

比拼结果：尽管存在许多满足条件的数列组合，这一提示语有效测试了大语言模型（LLMs）在遵循中等复杂度且易混淆指令时的抗干扰能力。三个模型均生成了有效回答，但方式不同，耐人寻味。

ChatGPT o1 生成的数列同样满足所有条件，但选择 2^30（约 10.7 亿）和 2^31（约 21.4 亿）作为 2 的幂次方数略显突兀（虽然技术正确，但直接列举更小的 2 的幂次方如 4、8 等可能更直观），未出现计算错误。

ChatGPT o1 Pro 生成的数列有效，但选择质数 999,983 也令人颇感意外，策略偏向保守，同样未出现计算错误。

然而，我们不得不对 DeepSeek R1 扣除较多分数，因其在生成 10 个满足条件的自然数时，给出的数列虽然符合要求（包含至少 1 个质数、至少 6 个奇数、至少 2 个 2 的幂次方数，且总位数≥25），但在计算总位数时出现低级错误：模型声称数列共有 36 位，实际计算应为 33 位（如模型自述的位数累加结果「3 3 4 3 3 3 3 3 4 4」，正确总和应为 33）。尽管此次错误未直接影响结果有效性，但在更严格的场景下可能引发问题。

胜者：两款 ChatGPT 模型胜出，因为没有出现算术错误。

选个冠军？难分高下！

虽然很想在这场 AI 大乱斗里评出个最终赢家，但测试结果实在有点「东边日出西边雨」。

DeepSeek-R1 确实有不少亮点时刻 —— 比如，查资料确认第十亿个质数时展现了靠谱的学术素养，写起老爸笑话和亚伯拉罕・林肯打篮球的创意故事也颇有灵气。不过话说回来，遇到另类藏头诗和复数集合题时它就有点露怯了，连最基础的数数都会翻车，而这些恰恰是 OpenAI 模型没犯的低级错误。

总体来看，这场快测的结果让科技媒体 arstechnica 资深编辑感慨，DeepSeek-R1 的综合实力完全能和 OpenAI 的付费「精英」掰手腕。这足以打脸那些认为「不烧个几十亿搞计算资源就别想挑战行业巨头」的刻板印象 —— 原来用对方法，性价比路线也能玩转 AI 竞技场！

原文链接：https://arstechnica.com/ai/2025/01/how-does-deepseek-r1-really-fare-against-openais-best-reasoning-models/

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

两分钟读懂deepseek

3个月前

一文全览：DeepSeek 模型推理探索、性能剖析及使用建议

3个月前