首个GPT4驱动的人形机器人！0编程0训练，能根据口头反馈调整行为-脚本导航

> 自媒体 > （AI）人工智能 > 首个GPT4驱动的人形机器人！0编程0训练，能根据口头反馈调整行为

首个GPT4驱动的人形机器人！0编程0训练，能根据口头反馈调整行为

来源：量子位

2025-02-04 16:32:58

223

管理

衡宇萧箫发自凹非寺

量子位 | 公众号 QbitAI

让GPT-4操纵人形机器人，事先不做任何编程or训练，能搞成啥样儿？

答案是：太猎奇了！

这不，要求机器人表演“在昏暗电影院里狂炫爆米花，却突然发现吃的是隔壁陌生人的”。

在GPT-4的操纵下，机器人笑容凝固，“尴尬”得摇头扶额后仰：

但在尴尬之余，竟然还不忘再抓一把塞嘴里？？？

又像是要求机器人“弹吉他”。

GPT-4略思考一番，开始操控机器人活动一番手指、随后疯狂甩头，好像是有点摇滚内味儿。

但仔细一看，甩头的时候，手指就完全不动了……

但也有网友认为，人形机器人能通过GPT-4来操纵，已经是很不可思议的事情了。

这么看下来，直接把人形机器人和GPT-4集成这件事，可以干，但美观性属实不太够啊……

其实回顾一下，让大模型和机器人结合这事儿，科学家研究者们今年已经忙活了一整年。

不过，通常做法是做更多的训练，然后尝试将图像语言大模型的能力和知识迁移到机器人领域。

包括微软的ChatGPT for Robotics，谷歌的PaLm-E、RT-1、RT-2，还有VoxPoser、BoboCat等众多工作，都走的是这个路线。

其中，轰动一时的谷歌RT（Robot Transformer）系列效果贼棒，但谷歌训练它就花了17个月，并收集13台机器人的13万条机器人专属数据——一般团队很难有这个资金和精力。

年中，李飞飞团队的具身智能成果，则百尺竿头更进一步，通过将LLM（大语言模型） VLM（视觉语言模型）结合在一起，机器人与环境进行交互的能力进一步提升。

这种思路下，机器人完成任务无需额外数据和训练。

团队表示，CoT让GPT-4能够有效控制Alter3，命令它做各种复杂动作，且不用额外的训练或者微调。

多说两句，除了上述的两个Prompt搞定机器人控制外，研究团队还顺手完成了一些其它研究。

比如掰开了看Alter3在对话中的行为，主要针对其对话轨迹和语义时间演化。

针对对话轨迹，研究团队使用了一种叫UMAP（Uniform Manifold Approximation and Projection）的方法。团队把对话内容嵌入二维空间，从而方便观察这个简化版的对话发展过程。

他们发现，当对话顺序固定时，对话轨迹会呈现循环模式，也就是老在重复同样的话题。

而当对话顺序随机时，对话内容更有发散性or创造性。

贼有趣的一点，研究发现GPT-4聊久了过后，会倾向于反复说“再见”。如果你不来点儿人为干预，它就会沉迷于想办法跟你说再见。

而做语义时间演化分析的过程中，团队观察了随着时间变化，聊天内容的变化。

他们发现，对话初期的一些关键词，比如“艺术”或者“学习”啥的，会聊着聊着就被GPT-4忘了，取而代之的是诸如“文化”“人类”“抑制”之类的词。

这表明对话内容是在逐渐发展变化的。

当然，如果你开始跟GPT-4说“再见”，它就几乎一心一意只想跟你说byebye～（doge）

来自东京大学

这项火爆全网的研究，来自东京大学和日本Alternative Machine公司。

一作Takahide Yoshida，来自东京大学通用系统科学系。

另外两位作者升森敦士（Atsushi Masumori）和池上高志（Takashi Ikegami），都是既在东京大学，又属于Alternative Machine公司。

最后，不得不提到本次研究内容的主人公Alter3，它的幕后研究者也来自东京大学，由东京大学AI研究学者池上高志和日本“机器人之父”石黑浩联袂打造。

Alter3出生于2020年，是同系列机器人第三代产品。

据了解，Alter系列的两次迭代都是在歌剧演唱中完成的。第3代的初亮相就是在东京新国立剧场指挥管弦乐队并参加其他现场表演。

那个时候它的特色是增强了传感器，并改善了唱歌的表达能力和发声系统。

以及身体里那粒能够最终驱动43个气动装置的CPG。

CPG对数据的分析灵敏到什么程度呢？就是如果Alter3呆的房间里如果温度骤降，Alter3会因此打个冷颤，表示自己有被冷到。

这或许也为现在接入GPT-4当脑子后的它，能够活灵活现做表情、完成动作提供了一些基础吧。

One More Thing

说起人形机器人的最新消息，一定要提老马家特斯拉擎天柱Optimus的最新动态：

就在刚刚，马斯克突然在推特发布了Optimus的视频，表示Optimus第二代机器人（Gen 2）将在本月发布。

一点点“微小”的进步是二代Optimus步行速度提升了30%。

平衡感和身体控制能力也有所改善。

一把子期待住了！

参考链接：[1]https://tnoinkwms.github.io/ALTER-LLM/[2]https://arxiv.org/abs/2312.06571[3]https://twitter.com/elonmusk/status/1734763060244386074

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

0

点赞

赏礼

赏钱

0

收藏

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

ChatGPT有身体了，人形机器人走进千家万户的时代要来了吗？

清华团队重磅发现：机器人正迈向“ChatGPT时刻”！每经专访论文作者：成功率已达90%，但商业化至少需达99.9%

相关文章

20款新车上市；小米汽车二期工厂部分地基已建成；长安汽车称阿维塔有独立上..

图片系AI生成一周核心新闻快速一览：1、小米汽车二期工厂部分地基已建成2..

史上最快的 10 款本田汽车

史上最快的 10 款本田汽车，按最高速度排名第一代本田 NSX 是本田历史上..

造电视的企业都来造汽车了！新能源汽车变成唐僧肉，谁都能啃一口..

2024年，有些人才发现创维（就是造电视的那个企业）居然也在造汽车。而实..

广汽丰田一汽丰田召回超13万辆汽车！制动执行器存安全隐患..

9月29日，南都记者从国家市场监督管理总局获悉，自即日起，广汽丰田汽车..

一辆汽车的寿命有多长，15年以上的车真不能开了吗？那15年后咋办..

大家都听说过"车子过了15年就是一堆破铜烂铁"这样的说法。但是真的就只有..

华为终于掏出了享界S9，40万的行政级轿车开起来啥样？..

噔噔噔，昨天下午华为又发了一堆新品，有手机，有电脑，有耳机等一堆东西..

北京BJ60增程版-油耗仅1.3L 续航1200kmPk坦克500

北京越野BJ60增程版很快就要上市了！据4S店销售透露，该车定价大概率会与..

“红米”汽车，来了？

小米最近话题是真的多，前脚盘完手机，回头一看，汽车的料又来了。就上周..

产销量超3000万辆，新能源汽车下个战场在哪里？

文 | 节点财经，作者 | 九才“在时间面前，一切技术障碍都是纸老虎”。十..

关于作者

无根草(普通会员)

文章

801

关注

0

粉丝

2

点击领取今天的签到奖励!

猜你喜欢

01

微信聊天时，女人说“哼哼”，10个高情商回复

2023/10/04

02

聊天交友软件常用骗局（套路）交友需小心！

2023/07/15

03

DeepSeek 究竟是个啥？一文带你看明白

1个月前

04

彝族最美新娘果果曝光老公与小三不雅聊天记录，内容不堪入目！

2023/07/18

05

上海女家长陪睡校长，不雅聊天记录曝光！真是三观尽毁

2023/06/19

标签云

成员 网址收录40399 企业收录2981 印章生成237257 电子证书1051 电子名片60 自媒体49439

@2022 All Rights Reserved

浙ICP备19035174号-7

0

0

分享

请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索