OpenAI o3-mini发布，被DeepSeek逼入价格战，免费用户也能尝鲜-脚本导航

> 自媒体 > （AI）人工智能 > OpenAI o3-mini发布，被DeepSeek逼入价格战，免费用户也能尝鲜

OpenAI o3-mini发布，被DeepSeek逼入价格战，免费用户也能尝鲜

来源：DeepTech深科技

2025-02-06 21:11:24

283

管理

当地时间 1 月 31 日，OpenAI 终于发布了 o3-mini。

就在中国模型 DeepSeek 对 ChatGPT 领导地位发起挑战的一周后，OpenAI 终于做出回应，正式发布了其最新的推理模型 o3-mini。

图 | LiveBench 编码（来源：OpenAI）

从具体数据来看，o3-mini 的表现确实令人印象深刻。测试人员反馈显示，与 o1-mini 相比，o3-mini 将重大错误率降低了 39％，其回答的受欢迎程度提高了 56％。

图 | 中等推理强度下，o1-mini 与 o3-mini 之间的延迟比较（来源：OpenAI）

在具体评估中，o3-mini 在多个领域都展现出了不错的表现。

在 2024 年 AIME 竞赛数学题目中，高强度推理模式下的准确率达到了 83.6％。在博士级别的科学问题测试中，其准确率也达到了 77％。

在软件工程方面，o3-mini 成为了目前表现最好的模型。此外，在代码竞赛平台 Codeforces 上，o3-mini 也取得了超过 2000 的等级分，展现出了强大的编程能力。

图 | 竞赛编程（来源：OpenAI）

图 | OpenAI 测试 o3-mini 能否模拟自家工程师的工作（来源：OpenAI）

OpenAI 写道：“衡量模型是否以及何时能够自动完成 OpenAI 研究工程师的工作是模型自主性评估工作的一个关键目标。我们测试模型复制 OpenAI 员工的拉取请求贡献的能力，以衡量我们在这方面的进展。”

研究人员推断称，“我们怀疑 o3-mini（在该任务中）性能低下是由于指令执行不力，以及对以正确格式指定工具的困惑。尽管不断、多次提示和反馈表明这种格式不正确，但该模型经常尝试使用‘幻想中的’ Bash 工具而不是 Python。这导致了长时间的对话，可能损害了其性能。”

这表明，尽管大模型在多个领域取得了突破，但距离实现 AI 自我进化的目标仍有很长的路要走。

o3-mini 的发布，标志着 OpenAI 在推动高性价比 AI 发展方面又迈出了重要一步，不过其定价策略显然是受到了 DeepSeek 的冲击，不然也不会比上一代 o1-mini 便宜那么多。

这次发布一方面是 OpenAI 履行此前的诺言并展现技术创新方面的实力，也反映出 AI 领域竞争的白热化。在来自中国等地的 AI 公司带来的竞争压力下，OpenAI 不得不选择通过开放更多高质量的免费服务来巩固自己的市场地位。

目前，微软、英伟达、AWS 等均已上线 DeepSeek 模型托管服务。另据《华尔街日报》报道，OpenAI 正在寻求新一轮的 400 亿美元融资。可见，尽管 OpenAI 一边否定 DeepSeek，但却已经开始着急。

作为用户，我们当然也希望各个公司“越来越卷”，将价格进一步降低，同时涌现出越来越多的开源模型。推动整个 AI 行业向着更开放、更普惠的方向发展。

参考资料：

https://openai.com/index/openai-o3-mini/

https://cdn.openai.com/o3-mini-system-card.pdf

https://openai.com/api/pricing/

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

OpenAI CEO，罕见“认错”

1个月前

曝 OpenAI 本周发布重磅 Agent 功能，字节宣布启动 AGI 计划，这可能是 AI 最卷的一年

1个月前