OpenAI 再出招反击 DeepSeek！「深度研究」在这个终极测试超越 R1-脚本导航

> 自媒体 > （AI）人工智能 > OpenAI 再出招反击 DeepSeek！「深度研究」在这个终极测试超越 R1

OpenAI 再出招反击 DeepSeek！「深度研究」在这个终极测试超越 R1

来源：新浪财经

2025-02-06 21:15:19

169

管理

来源：爱范儿

DeepSeek 席卷的 AI 风暴尚未消停。

外媒消息称美国国会议员已经提出新法案，旨在禁止中国 AI 技术在美国使用。其中包括下载 DeepSeek 定为犯罪行为，最高可判处 20 年监禁。

同时据美联社报道，美国得州已发文禁止在政府设备上使用和 DeepSeek 和小红书。

就在 DeepSeek 遭遇美国政策阻击之际，老对手 OpenAI 也正如火如荼地举办着一场重要直播活动。

在软银 CEO 孙正义投资数百亿美元之后，OpenAI 今天也选择投桃报李，在东京的直播活动中正式官宣了一项名为 Deep Research（深度研究）功能。

顾名思义，与普通的 AI 搜索功能有所不同，Deep Research 的野心更足。

它号称是下一代智能 Agent，能够独立为你完成任务。

你只需输入你的问题，它就能查找、分析并整合数百个在线来源，生成一份媲美研究分析师水平的综合报告。

OpenAI 表示，Plus 版预计将在一个月内推出，并且付费用户的查询次数限制很快会「明显提高」。

不过，该功能目前仅支持网页版，移动端和桌面端应用程序的集成预计将在本月晚些时候推出。

使用这项功能，用户只需在 ChatGPT 界面中选择消息输入框中的「Deep Research」模式，然后输入需要查询的问题即可。

另外，你还可以附加文件或电子表格作为问题的补充，任务开始后，侧边栏输出都会附带「完整的文档、清晰的引用来源以及思维过程的摘要」。

据悉，Deep Research 通过端到端强化学习训练，专注于复杂的网页浏览和推理任务，覆盖多个领域。

通过这一训练，它学会了规划并执行多步搜索路径，以找到所需数据，并能在必要时回溯调整，实时响应新信息。

OpenAI 表示，他们使用了一项名为 Humanity’s Last Exam 的评测来测试该功能。

该测试涵盖 100 多个学科，包含 3000 多道涵盖多个学术领域的专家级问题，包括语言学、航天工程、古典学和生态学。

与 OpenAI o1 相比，Deep Research 在化学、人文社会科学和数学领域的表现提升最为显著。

Deep Research 所使用的模型在专家级问题上的准确率达到了 26.6%，创下新高。相比之下， Google 的 Gemini Thinking 仅获得 6.2% 的准确率，Grok-2 为 3.8%，GPT-4o 只有 3.3%。

而 DeepSeek-R1 的准确率仅仅只有 9.4%，远低于 Deep Research。

在 GAIA 这一公共基准测试中，Deep Research 所使用的模型达到了最新的业界领先水平（SOTA）。

GAIA 评测涵盖三种不同难度级别的现实世界问题，成功完成这些任务需要推理、多模态理解、网页浏览以及工具使用能力。

Deep Research (cons@64) 方法在所有等级上均优于 Previous SOTA 和 Deep Research (pass@1)，特别是在 Level 3 取得了最大的提升，最终平均分 72.57 最高。

该结果表明，更高级的 Deep Research 方法（cons@64）可以显著提高所有级别的性能，特别是在挑战性更高的 Level 3 上。

不过，指望Deep Research 能完全避免 AI 幻觉也并非易事，它在报告和引用格式上也可能出错。

即便有着引用链接的参考验证，也建议在使用过程认真核查 AI 提供的信息，而非仅仅直接复制粘贴。

值得一提的是，这项 AI 功能的负责人之一 Zhiqing Sun（孙之清），本科就读于北京大学计算机科学与技术系。

2019 年起，Zhiqing Sun 在美国卡内基梅隆大学（CMU）语言技术研究所攻读博士学位，2024 年起，开始担任 OpenAI 的研究员。

Zhiqing Sun 的实习经历也相当丰富，曾在 Google Brain、微软亚洲研究院、MIT-IBM Watson AI Lab 等知名 AI 公司机构实习。

对于这项功能，OpenAI 官方表示，今天发布的版本仅仅是个开始。未来，它还能连接到定制化的数据环境，甚至企业级的海量数据存储系统。

AI Agent 可以花更长时间思考，以更高的自主性，解决极其复杂的任务。

「Deep Research 的推出标志着我们向更宏伟目标迈出了重要一步——即开发能够进行原创科学研究的通用人工智能（AGI）。这一直是我们长期以来的愿景。」

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

OpenAI CEO承认DeepSeek削弱其地位称站在了历史错误一边

OpenAI 12集“发布会”背后：对中国产业AI落地的五大启示

相关文章

法拉利电动SUV在国内上路了？原来是民间大神的“阿维法”..

什么！法拉利首款纯电SUV来了？而且还在国内各个城市里无任何伪装曝光上..

新车 | 售价498.8万元起，法拉利Purosangue实拍，配6.5升V12发动机..

文：懂车帝原创高帅鹏[懂车帝原创产品] 日前，法拉利Purosangue实车到..

新车 | 售价49.9-57.8万欧元，搭载V12动力，法拉利812特别版发布..

文：懂车帝原创史景旭/潘梓春[懂车帝原创产品] 5月5日，法拉利812特别..

目前最便宜的法拉利，试驾法拉利Roma，它真的是\u0026#34;弱鸡\u0026#34;吗..

文：孙少爷说到法拉利，我相信大家的脑海里肯定会最先想到的就是他们的F1..

血脉传承，新王当立！法拉利全新旗舰公路超跑F80

位于三翼面前翼下方有主动式反向襟翼设计，它的开闭状态来控制车身前部的..

比高铁开的还快？上赛场试驾法拉利全系车型

好吧，我承认，当领导在微信上问“有个法拉利的试驾，你去不去？”的时候..

新车 | 海外售价约273万元起，法拉利SUV实车亮相，国内或10月上市..

文：懂车帝原创高帅鹏[懂车帝原创产品] 在9月14日官图发布后，法拉利全..

只要88万就能买一辆11款法拉利458，真有这种好事？

哈喽，大家好~检车家老司机又和大家见面了！我是体重180，身高180，穿着..

试驾玛莎拉蒂Levante：搭3.8T V8法拉利引擎，超帅、超拉风..

【有车以后有车试驾】作为意大利的超豪华品牌，有着跑车血统的玛莎拉蒂..

关于作者

酷匠(普通会员)

文章

888

关注

0

粉丝

1

点击领取今天的签到奖励!

猜你喜欢

01

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

02

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

03

DeepSeek 究竟是个啥？一文带你看明白

1个月前

04

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

2023/07/18

05

上海女家长陪睡校长，不雅聊天记录曝光！真是三观尽毁

2023/06/19

标签云

成员 网址收录40398 企业收录2981 印章生成236810 电子证书1047 电子名片60 自媒体48699

@2022 All Rights Reserved

浙ICP备19035174号-7

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索