具身智能出不来「 ChatGPT」，为什么？-脚本导航

> 自媒体 > （AI）人工智能 > 具身智能出不来「 ChatGPT」，为什么？

具身智能出不来「 ChatGPT」，为什么？

来源：极客公园

2025-02-10 09:48:35

242

管理

2024 年，具身智能无疑是 AI 领域里最火热的新赛道之一。

相较于目前大语言模型在数字世界里带来的技术变革，具身智能描绘了通往未来世界的另一条路径：大量具有智慧的机器人出现在真实的物理空间中，通过参与到人类生产、生活的各个环节，改变人类的生活方式。

但和大语言模型可以利用海量互联网文本、图像资源进行快速学习不同，在具身智能领域里，机器人缺少低成本、高效率、多样性、可泛化的学习数据。

如果只基于 Transformer 架构的大语言模型（如 ChatGPT），人类无法实现具身智能。海量物理正确的训练数据如何快速获取，是迈向具身智能前的世界级难题。

13 年前，黄晓煌回国创业。回国前，他在美国伊利诺伊大学学习 GPU 计算，也在英伟达做过云计算。他一开始的创业方式，是希望用 GPU、云计算来做物理仿真，但在当时，极少有人可以理解 GPU 通用计算的价值。于是，黄晓煌用 GPU 进行光学仿真，并应用对家装场景里，把过往需要几十分钟的渲染提速到了 10 余秒，自此开始了群核科技的创业之路。

多年后，凭借着在家装渲染、工业 4.0 生产对接中积累的海量数据，在具身智能的技术巨浪袭来时，群核科技终于脱下「家装公司」的外壳，浮出水面。他们希望可以在数字世界和物理世界中间，搭起一道桥梁，通过海量可交互的、物理正确的三维数据，推动具身智能的发展。

以下是群核科技联合创始人兼董事长黄晓煌在 IF 2025 主舞台的演讲全文。在演讲中，黄晓煌分享了群核科技的创业故事，以及他们对具身智能时代的思考。由极客公园整理。

ChatGPT 解决不了的「叠被子困境」

大家好，我是极客公园的老朋友，来自群核科技的黄晓煌。今天我介绍的主题是：如何让 AI 从数字世界走向物理世界。

大模型到来之后，所有人都想知道它能为我们做什么。我们的下一代已经成为了「AI 原生娃」。我女儿刚学会认字，但她已经能很自然地对着各种镜子和屏幕喊「小度小度」或者「小爱同学」了。

但他们目前还只能跟虚拟人物进行沟通，我们更希望孩子们跟物理世界有更多互动，有真实的陪伴。可惜即便 AI 现在已经可以吟诗作画，但就算叠被子这么简单的家务，机器人都实现不了。

当我们谈到具身智能或者机器人的时候，「叠被子困境」是一个非常典型的场景。

目前的 ChatGPT 大语言模型，可以很容易地让机器人理解人类的指令，「给我叠一个被子」，它也可以通过视觉判断哪床被子是叠好的、哪床被子没叠好，但它很难执行。或者当它学会叠一床被子后，换个形状可能就又不会了。

机器人的大脑在数字世界里，但身体却在物理世界中。解决这类问题，最关键的是在物理世界和数字世界里面建立一个桥梁。而 ChatGPT 一类的大语言模型是无法实现的，我们需要一个全新的大模型。

让机器人正确理解物理世界，关键是要有海量可交互的三维数据。很多大语言模型都是根据互联网上的语料信息、图片或视频训练出来的，但这些内容只是一堆静态的记忆，训练出来的东西跟物理世界是相违背的。

这里有一个简单的例子，左边是由 Stable Diffusion 大模型生成的卧室场景，右边是由我们的矩阵 CAD 引擎生成的。乍一看都挺漂亮的，但左边这张存在多处物理不正确的地方：比如有的床头柜悬空、有的柜门无法打开。我们需要在大模型脑海里呈现右边这种内容，来指导真实的生产制造。

相比真实场景，仿真数据用于具身智能训练拥有诸多优势 | 图片来源：极客公园

那么，群核科技的核心优势是什么？我们为什么能一起参与这个有意思的征程呢？

我们通过多年的 3D 云设计平台，积累了海量数据，用这些数据训练了自己 CAD 的大模型。这些大模型可以阅读人类的 CAD 文件、图片、手绘等，然后把这些内容再转换成物理正确的空间场景。我们也自建了 1 万多台高性能计算服务器，专门用来训练、推理、渲染。我们希望用物理正确的合成数据，来帮助所有具身智能的机器实现训练。

今年，我们推出了新版本的 SpatialVerse 来赋能 AI 空间智能。因为传统的三维数据太「干净」了，没有办法直接用来训练机器人。我们需要 AI 对这些原始的数据进行物理增强：告诉机器人哪里是抽屉可以打开，可以打开多少程度；物体的重力是多少；哪里是门可以打开，是往里开还是往外开等等。

其次，在机器人训练的时候需要有各种语义信息在里面，过去都是人工标注，现在要用 AI 给它自动标注好。

另外，环境加强也很重要。我们平常人生活的环境不是像 3D 世界里面那么纯净的，包括你的房间里面有纸巾、有动物的毛发等，但是在数字世界里没有，你要把它以某种方式加回去，让一个空间不是一个纯净的空间，它需要更接近于真实的空间。

最后是隐私问题。前阵子全球最著名的公司之一被曝出在采集物理数据的时候，不小心拍到了房屋主人上厕所的视频。合成数据就没有这个问题，它不会涉及到人类隐私的问题。

我们今年和上海人工智能实验室一起发布了具身智能训练的新范式，多模态的 3D 数据解决方案，就是大规模的动态场景生成，渲染物理真实感以及高分辨率的场景分割。这里面的空间场景都是基于我们 SpatialVerse 的解决方案。

具身智能未来将进入更多场景中 | 图片来源：极客公园

我以上展示的这些肯定不是空间智能、具身智能的全部，它只是开始。具身智能还会进入到我们更多的场景，除了在我们工厂里面工作，还会进入到我们的商业空间里、办公室里，家庭里。未来，我们的生活场景里面会充满了空间智能、具身智能的机器人。

当然，所有的使用场景都需要丰富的物理正确的三维数据给它们训练，因为大家不希望一个没有训练过的机器人在你家里面。一个 300 公斤重的机器人，万一发起疯来，谁都受不了，所以我们得确保它在足够多的空间里训练过，才能够进入到我们工作生活的环境里，这是非常重要的。

我相信未来肯定是具身智能、空间智能的时代，我相信从生产制造再到商业空间再到我们家庭场景，它会充斥到我们每一个角落，就像叠被子那一刻被机器人完美地解决了之后，机器人就会解决我们日常生活中各种各样所需要的问题，我也希望群核科技能够成为中间重要的推力之一。

欢迎各位小伙伴跟群核一起走向技术的彼岸。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

普通人用ChatGPT是违法的

3个月前

2025年AI伴侣实测：和ChatGPT-6谈恋爱，比相亲更靠谱？

3个月前