ChatGPT o1满血版上线！实测中它竟然败给了国产AI？-脚本导航

> 自媒体 > （AI）人工智能 > ChatGPT o1满血版上线！实测中它竟然败给了国产AI？

ChatGPT o1满血版上线！实测中它竟然败给了国产AI？

来源：雷科技

2025-02-04 15:31:17

165

管理

当地时间12月5日，OpenAI正式上线ChatGPT‍的o1和o1-Pro两个新的AI模型。其中o1模型实际上大家之前已经用过了，只是那时候还叫o1-preview，仅开放了o1模型的部分功能，如今新版本去掉了preview，也意味着o1模型的满血版终于正式上线。

o1模型给出的答案也是188.14万元，与问题本身的标准答案一致，三个AI都通过了测试。不过大家从回答的截图里，其实也能看出不同，o1模型展示了大量的推算过程，更方便用户检查推理的过程是否正确。

这也与o1模型的主要用途有关，本质上o1模型上为科研等用途设计的，所以在展示答案的时候会更注重于推理过程及正确性，而非只输出正确的答案。

接下来我们试试直接用图片进行提问，可以让我们输入一些比较抽象的数学题，比如一道来自小学四年级的奥林匹克竞赛题：

还是惯例先看看国产AI的回答：

文心一言

两个国产AI分别给出了A和B的选项，其中kimi的推理过程非常长，直接把这道小学奥数题以高等数学的方式进行了解析。

下面看看o1模型的回答：

kimi

文心一言

三个AI都很轻松识别出了甜点的类型，并且给出了相似的配方，不过o1模型的回答则是详细到了每一个步骤的操作方式和注意事项，相对来说国产AI的步骤说明就简单很多了。如果是有一定烘培经验的人，国产AI的菜谱是够用了，但是对于一个新手来说，o1模型的菜谱成功率显然会高很多。

AI的下一步是学会真正的「思考」

总体来看，o1模型在回答的细致度等方面确实有着明显的优势，在一些需要查看推理过程或者得到更详细回答的场景中体验会好很多。但是从答案的准确度来看，o1对比目前的国产AI其实也没有多少优势，表现还不如kimi。

而且国产AI也可以通过追问等方式，得到更详细的回答和推理过程，o1模型在多数场景下其实都没有明显的优势，比如我在日常使用ChatGPT时，很多时候ChatGPT-4o就可以满足需求，只有极少数情况下会用到o1模型。

作为一个ChatGPT的长期用户，我认为o1模型其实更适合科研人员及金融分析师等职业，他们在日常工作中会用到大量数学工具并进行多次推理。此时，o1模型那经过针对性训练的多步骤推理流程，在解决这些问题时表现会比普通AI好不少。

至于o1-pro，其实从我查询到的其他用户测试结果来看，回答的质量与o1模型并没有太大区别，两者的差距主要是o1-pro可以调用更多的算力，反复验算答案的正确性，并且尝试给出更详细的推理过程。

实际上AI大模型发展到现在的阶段，其实又开始出现细分化的苗头，在此之前不少AI企业都希望去打造一个大而全的多模态模型，但是却发现成本很高且效果并不算好，诸如「幻觉」等问题一直难以解决。

而ChatGPT-o1无疑给出了另一个解法，在算力足够的情况下，可以让AI先对问题进行一次深度的「思考」，再根据思考的结果去进行推算。你可以这么去理解，o1是先尝试分析问题本身，再根据分析结果去解决问题，而普通AI则是直接对问题进行关键词拆解，然后根据算法调用对应的数据并组合输出，这种方式虽然回应速度快，但是回答的准确度却难以保证，特别是面对一些复杂的问题时。

所以，我们可以看到kimi和文心一言其实也在通过不同的方式去让AI学会「思考」，而不是根据算法和数据强行组合答案。kimi的表现更是给我留下了深刻的印象，作为数学测试环节唯一回答全对的选手，无需付费就可以使用，性价比和体验都拉满了。

老实说，如果不是为了方便查询外文资料和关注AI的最前沿，ChatGPT的20美刀订阅性价比确实不高，免费的kimi和提供多种智能体及官方工具，更具有泛用性的文心一言都是更具性价比的选择。

25年1月7日，CES（国际消费电子展） 2025 即将盛大开幕，雷科技报道团蓄势待发，即将飞赴美国·拉斯维加斯现场全程报道，敬请关注。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

OpenAI Operator现身ChatGPT App代码，订阅用户有望抢先体验

1个月前

深度使用ChatGPT六个月后，OpenAI最大的金融客户评估：有效果，但扩展性存疑

1个月前