> 自媒体 > (AI)人工智能 > 商汤绝影王晓刚:端到端是智能驾驶的“ChatGPT 时刻” | 36氪专访
商汤绝影王晓刚:端到端是智能驾驶的“ChatGPT 时刻” | 36氪专访
来源:36氪
2024-07-09 21:23:56
153
管理

采访 | 李勤 田哲

文 | 田哲

编辑 | 李勤

“我常对同事们说,团队生命永远只有半年,活过半年才能续命。”说话者,是商汤绝影智能汽车事业群总裁王晓刚。

近几年,汽车行业仿佛坐上一辆高速行驶的过山车,各类新技术层出不穷。不到三年,智能驾驶量产落地就从高速道路,转向全国城乡道路,稍不留神,玩家们就会被市场远远抛下,失去下一轮游戏的资格。王晓刚希望这句警句,能激励团队紧跟行业进程。

2021年,商汤发布智能汽车品牌“绝影”,以Tier 1的身份切入智能汽车市场,由王晓刚掌舵。王晓刚是商汤科技的联合创始人兼首席科学家,在此之前,他作为商汤研究院院长带队研究大模型。

商汤绝影的主要收入来源一度是智能座舱业务,其与上汽、奇瑞等知名主机厂合作了上百款量产车型。然而,汽车行业更广阔、同时变革更剧烈的赛道是智能驾驶。而端到端大模型,无疑是当下影响智能驾驶走向的最大变量。

在王晓刚看来,端到端大模型至关重要,是团队实现智能驾驶弯道超车的机会。

2023年,智能驾驶进入开城竞赛,各车企和Tier 1试图研发低成本、通用性强的智能驾驶系统。当年5月,特斯拉CEO马斯克宣布,特斯拉将发布采用端到端大模型的自动驾驶系统,逐渐扭转了行业智能驾驶的研发方向。

端到端大模型旨在将智能驾驶的所有流程,整合至一个统一的模型,只需输入原始数据就能直接输出最终结果,从而大幅提升智能驾驶系统通用性。

这一轮AI与智能驾驶深度融合的浪潮,让商汤绝影看见了发挥大模型优势的机会。

今年4月北京车展期间,商汤绝影实车演示了感知决策一体化自动驾驶通用大模型UniAD,据悉,仅通过纯视觉和导航地图,车辆就能在城市、乡村道路智能驾驶。

王晓刚告诉36氪汽车,商汤研究端到端智能驾驶的契机是与本田的合作。2017年,本田汽车向商汤提出一个课题,要求商汤只用摄像头,没有高精地图的情况下实现智能驾驶功能。“当时我们在本田测试场实现了端到端的智能驾驶,自那之后,团队就持续研究端到端。”

这一次的合作,成为商汤绝影投入大模型研发的开端。2018年,商汤在上海建设超算中心,迄今已有超4.5万块GPU,总算力规模达到1.2万PFLOPS,可实现连续30天稳定训练大模型。充足的算力资源,意味着商汤绝影的模型迭代几乎不受限制。

模型训练离不开道路数据。王晓刚告诉36氪汽车,合作的量产车型在开发测试阶段,团队会定义一套数据操作标准,采集全套数据用于端到端大模型训练。待合作车型上市后,商汤将能获得更丰富的道路数据。

为了获得非公开的高质量数据,商汤绝影还开发了用AIGC视频生成了世界模型,可根据需要生成指定的场景用于模型训练。

决战时刻将至,商汤绝影一改往日的学术风格,为团队扩充了大量有着车企、Tier 1背景的新成员,补齐交付能力。

与大多数智能驾驶解决方案商不同,商汤绝影不介意白盒交付。在王晓刚看来,只有车企真正理解技术,明白现有方案的不足,才能积极配合团队共同开发,加速产品迭代。

商汤绝影把端到端大模型上车时间定在2025年,在王晓刚看来,这是商汤绝影的必赢之战,“没有Plan B”。

以下是36氪汽车与商汤绝影智能汽车事业群总裁王晓刚的对话,经编辑:

谈端到端大模型研发:现在依然是删代码、加代码的过程

36氪汽车:自动驾驶的算法从规则向着AI转变,转变的驱动力是什么?

王晓刚:首先,基于规则的自动驾驶每天可能遇到几千个道路场景,每个场景对应着不同的规则,如果不断编写规则,时间长久后,可能会忘记初期编写规则的作用,同时消耗的资源也十分巨大。如果用AI大模型数据驱动,自动驾驶研发效率能提升数十倍。

其次,GPT-4o的多模态数据流推理实时交互,人机交互体验有着明显提升。以前基于规则的体验非常固定,反馈单调且不够智能。现在能调动车内外的摄像头,随时随地和汽车大模型自然交互,创造很多内容,加上端到端多模态融合,非常契合汽车的使用场景。

36氪汽车:分段式端到端,是真正的端到端大模型吗?

王晓刚:不是的。一块一块组合的模型能力很弱,不能真正理解场景中的复杂情况,而是解决被简化的任务,这种大模型不需要大网络去喂数据,也不具备像人那样的大脑。

打个比方,蜜蜂基于生物习性,对某个特定的简单任务会完成得很好,但是它的头脑特别简单,不能像人一样具备通用能力,在新场景遇到问题,会发明新工具解决新问题。蜜蜂和人,分别像分段式端到端大模型和一体式端到端大模型,分段式端到端大模型的神经网络模型很小,只会解决特定任务。

36氪汽车:端到端大模型智驾的上限很高,下限难以预测,如何把控下限?

王晓刚:初始阶段还是要用规则兜底,端到端大模型越深入发展,规则将越少,就像感知模块的训练少,要用许多后处理融合,但是随着感知能力增强,规则就慢慢撤掉。

今天绝影的车道保持感知已经做得很好了,就删去很多规则,如果将来场景变复杂了,就继续增加规则,这是一个重复删除代码、增加代码的过程,不过加强后的大模型所需的规则会越来越少。

实际上,ChatGPT在衍生出各种应用时,也有很多规则兜底。端到端大模型的核心在于通用能力,通用能力越强,就能完成更多的事情。

36氪汽车:有行业观点认为,车企大规模量产无图智驾方案后,才更利于端到端智驾方案落地,而商汤是直接跨越到端到端,两者之间有什么区别?

王晓刚:行业大多数端到端大模型智驾方案采用轻图方案,配有简单的标注。如果切换技术路线,成本非常高,相当于重新搭建研发体系。

所有基于规则的智驾方案,由上千名算法工程师不断写规则、打补丁以维护智驾系统。这样的方案量产上市后,还需要持续维护。如果切换技术路线,就相当于从头开始研发。

现在基于规则的智驾方案,因为在车端上写了复杂的规则,导致车端网络算法比较复杂。端到端大模型智驾方案的特点是,车端上网络算法比较简单,后台的任务比较复杂,因为不仅需要数据闭环,还要训练、清洗数据、训练大模型、把大模型分为小模型等等,以维持模型训练的稳定性。

谈端到端大模型落地:未来汽车行业只剩车企、芯片和AI公司

36氪汽车:训练模型需要大量数据,商汤绝影的数据来源是什么?

王晓刚:端到端大模型是一个长期发展过程,需要分步骤进行。商汤会采集数据,也会与车企合作。

商汤绝影合作的量产车型在开发测试阶段,我们会定义一套数据操作标准,不同的量产项目车型是基于规则的智驾系统,我们采集的全套数据可以用于端到端大模型训练。

合作车型上市后会有数据回流,我们会和车企深入合作,选择、清洗更丰富的道路数据。

数据采集越深入,就越难采集到想要的特定数据,采集成本也将提高,绝影用AIGC视频生成的世界模型,进行数据采集。

至于世界模型采集数据的成本,商汤是一家平台型公司,开发的技术与不同行业合作进而分摊成本,还能和很多不同行业的合作伙伴联合开发分摊成本。因此,商汤绝影未来也会和车企深入合作数据采集。

36氪汽车:商汤绝影在推动数据共享时,车企的态度是什么?

王晓刚:车企目前很愿意与我们共享数据,因为绝影的任务明确,车企知道哪方面存在问题,就愿意开放相关数据以解决问题。不过,目前车企没看到端到端大模型更通用的能力。如果看到的话,我想车企会更有动力和我们一起挖掘数据。

36氪汽车:端到端大模型的人才画像是怎样的?

王晓刚:端到端大模型的平台体系非常重要,需要团队具备非常强且全面的工程化能力。如果是模型训练,相关团队应该具备创新性,需要想办法快速迭代。而在最终方案交付时,需要经验丰富的团队兜底。

36氪汽车:行业角度来看,端到端大模型团队规模多大才合适?

王晓刚:现在许多端到端大模型团队,大部分人负责数据采集、测试、分析等工作,真正参与大模型本身工作,团队规模几十人就算多了。

36氪汽车:现在行业有全栈能力的公司,还有芯片、算法等公司,您认为汽车行业未来格局如何?

王晓刚:车企、芯片公司还有AI公司,他们之间的合作是核心部分,其他部分比如硬件、Tier 1等集成类公司可能会被吸收。

谈商汤绝影商业理解:汽车是大模型落地的重要场景

36氪汽车:商汤绝影的商业形态是什么?

王晓刚:商汤绝影有三大业务,分别是智能驾驶、智能座舱和AI云,本质上绝影为车企输出能力。

我认为终局是给车企赋能基础能力,通过数据合作打造各种体验差异化的应用,而不是交付标准化产品。

36氪汽车:其他Tier 1似乎不需要车企具有智驾能力,商汤绝影恰恰相反?

王晓刚:车企需要理解技术,绝影可以白盒交付车企,只有车企理解后,才能根据其需要产生非常有价值的数据,将有限的资源针对性投入,从而进一步增强大模型,推动整个体系不断演进。如果车企遇到问题就找Tier 1解决,车企永远无法实现跨越式的技术发展。

端到端给智驾大模型带来了通用能力,基于这种能力可以生成很多新应用,这些应用会有很多想象空间和拓展空间,而不是只限于单一任务的理解。

36氪汽车:意味着目前绝影的商业模式不特别注重交付吗?

王晓刚:实现远大理想有一个过程,要一步一个脚印,保证交付质量,与车企建立信任关系。现在商汤绝影的内部要求是客户、质量放在第一位,必须第一时间响应客户需求。

36氪汽车:商汤绝影如何提升交付能力?

王晓刚:我们之前AI方面的人才比较多,现在我们引入了大量经验丰富、来自Tier 1、车企的人才。在组织机制上,后端有研发人员,前端有综合的交付团队,已经具备足够力量调动交付资源,同时我们的质量体系也在积极建设。

36氪汽车:您在商汤如何分配精力?

王晓刚:我的精力绝大部分在绝影上,和集团研发也有很多交流。

今天来看,汽车是能推动大模型落地的重要场景,因为大模型的核心就是人机交互体验,现在人机交互界面只有手机、汽车、机器人三个。

手机现在只是文字性交互,其本身的金融属性决定了没办法通过多模态语音、视频进行交互。机器人的交互和汽车关联,甚至能复用,但是机器人没有达到大规模量产应用阶段,数据量很少,无法提供有价值的反馈,从而形成闭环。

而汽车车内外都能交互,是最好的多模态交互场景,并且产量庞大,消费者对多模态大模型的接受度会越来越高。在车内,用户能和多模态大模型交流;车外,大模型能拓展延伸用户的视觉,告诉用户车外的交通情况、建筑物、文字等信息。

36氪汽车:对于商汤绝影来说,明年端到端大模型的交付落地,是必赢之战吗?

王晓刚:对,没有Plan B。我常常和团队说,我们只有半年的生命,半年之后可能再续命。我们有未来五年、十年的理想目标,但是生命永远只有半年。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
ChatGPT之父等业内人士警告 AI或给人类带来灭绝风险
【CNMO新闻】自聊天机器人ChatGPT掀起AI热潮以来,业内对这项技术潜在风..
大模型“安卓时代”开启!华为盘古新版本即将亮相 B端应用能力或超GPT-3..
《科创板日报》4月4日讯(编辑 宋子乔)4月8日至9日,由中国人工智能学会..
ChatGPT大大大升级,这回谁要慌了?
作者|JamesHello各位打工人!现在相信有一个问题非常困扰大家:今天到底..
比我先考上哈佛康奈尔的,是我花20刀买的GPT-4
硅谷大厂们的战争,已经进入了白热化阶段。上个月大表哥还在感叹ChatGPT..
ChatGPT经历西方多国“监管阵痛”
由美国人工智能公司OpenAI在2022年11月推出的大语言模型应用ChatGPT,在..
语言、机器人破壁,MIT等用GPT-4生成模拟任务,并迁移到真实世界..
机器之心报道编辑:杜伟、小舟GPT-4 与机器人又擦出了新的火花。‍论文地..
AI“货币化困境”:ChatGPT收入增长停滞,微软Github Copilot收10元倒赔20..
AI的风潮已经刮了近一年,但如何变现并持续盈利,仍然是一个难题。对于率..
科技观察丨它并不完美但你也一样!升级后ChatGPT有多“恐怖”?..
封面新闻记者 燕磊 边雪当地时间3月14日,OpenAI公开发布大型多模态模型G..
看清一个人的情商,看微信聊天就够了
微信很小,只能微微一信。可是,在网络时代,我们越来越习惯用微信联系亲..
关于作者
素素鴉(普通会员)
文章
610
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40369 企业收录2981 印章生成216707 电子证书945 电子名片57 自媒体34015

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索