当地时间 1 月 31 日,OpenAI 终于发布了 o3-mini。
就在中国模型 DeepSeek 对 ChatGPT 领导地位发起挑战的一周后,OpenAI 终于做出回应,正式发布了其最新的推理模型 o3-mini。
图 | LiveBench 编码(来源:OpenAI)
从具体数据来看,o3-mini 的表现确实令人印象深刻。测试人员反馈显示,与 o1-mini 相比,o3-mini 将重大错误率降低了 39%,其回答的受欢迎程度提高了 56%。
图 | 中等推理强度下,o1-mini 与 o3-mini 之间的延迟比较(来源:OpenAI)
在具体评估中,o3-mini 在多个领域都展现出了不错的表现。
在 2024 年 AIME 竞赛数学题目中,高强度推理模式下的准确率达到了 83.6%。在博士级别的科学问题测试中,其准确率也达到了 77%。
在软件工程方面,o3-mini 成为了目前表现最好的模型。此外,在代码竞赛平台 Codeforces 上,o3-mini 也取得了超过 2000 的等级分,展现出了强大的编程能力。
图 | 竞赛编程(来源:OpenAI)
图 | OpenAI 测试 o3-mini 能否模拟自家工程师的工作(来源:OpenAI)
OpenAI 写道:“衡量模型是否以及何时能够自动完成 OpenAI 研究工程师的工作是模型自主性评估工作的一个关键目标。我们测试模型复制 OpenAI 员工的拉取请求贡献的能力,以衡量我们在这方面的进展。”
研究人员推断称,“我们怀疑 o3-mini(在该任务中)性能低下是由于指令执行不力,以及对以正确格式指定工具的困惑。尽管不断、多次提示和反馈表明这种格式不正确,但该模型经常尝试使用‘幻想中的’ Bash 工具而不是 Python。这导致了长时间的对话,可能损害了其性能。”
这表明,尽管大模型在多个领域取得了突破,但距离实现 AI 自我进化的目标仍有很长的路要走。
o3-mini 的发布,标志着 OpenAI 在推动高性价比 AI 发展方面又迈出了重要一步,不过其定价策略显然是受到了 DeepSeek 的冲击,不然也不会比上一代 o1-mini 便宜那么多。
这次发布一方面是 OpenAI 履行此前的诺言并展现技术创新方面的实力,也反映出 AI 领域竞争的白热化。在来自中国等地的 AI 公司带来的竞争压力下,OpenAI 不得不选择通过开放更多高质量的免费服务来巩固自己的市场地位。
目前,微软、英伟达、AWS 等均已上线 DeepSeek 模型托管服务。另据《华尔街日报》报道,OpenAI 正在寻求新一轮的 400 亿美元融资。可见,尽管 OpenAI 一边否定 DeepSeek,但却已经开始着急。
作为用户,我们当然也希望各个公司“越来越卷”,将价格进一步降低,同时涌现出越来越多的开源模型。推动整个 AI 行业向着更开放、更普惠的方向发展。
参考资料:
https://openai.com/index/openai-o3-mini/
相关文章
猜你喜欢
成员 网址收录40399 企业收录2981 印章生成237284 电子证书1051 电子名片60 自媒体49544