> 自媒体 > (AI)人工智能 > 首个GPT4驱动的人形机器人!0编程0训练,能根据口头反馈调整行为
首个GPT4驱动的人形机器人!0编程0训练,能根据口头反馈调整行为
来源:量子位
2025-02-04 16:32:58
102
管理

衡宇 萧箫 发自 凹非寺

量子位 | 公众号 QbitAI

让GPT-4操纵人形机器人,事先不做任何编程or训练,能搞成啥样儿?

答案是:太 猎 奇 了!

这不,要求机器人表演“在昏暗电影院里狂炫爆米花,却突然发现吃的是隔壁陌生人的”。

在GPT-4的操纵下,机器人笑容凝固,“尴尬”得摇头扶额后仰:

但在尴尬之余,竟然还不忘再抓一把塞嘴里???

又像是要求机器人“弹吉他”。

GPT-4略思考一番,开始操控机器人活动一番手指、随后疯狂甩头,好像是有点摇滚内味儿。

但仔细一看,甩头的时候,手指就完全不动了……

但也有网友认为,人形机器人能通过GPT-4来操纵,已经是很不可思议的事情了。

这么看下来,直接把人形机器人和GPT-4集成这件事,可以干,但美观性属实不太够啊……

其实回顾一下,让大模型和机器人结合这事儿,科学家研究者们今年已经忙活了一整年。

不过,通常做法是做更多的训练,然后尝试将图像语言大模型的能力和知识迁移到机器人领域。

包括微软的ChatGPT for Robotics,谷歌的PaLm-E、RT-1、RT-2,还有VoxPoser、BoboCat等众多工作,都走的是这个路线。

其中,轰动一时的谷歌RT(Robot Transformer)系列效果贼棒,但谷歌训练它就花了17个月,并收集13台机器人的13万条机器人专属数据——一般团队很难有这个资金和精力。

年中,李飞飞团队的具身智能成果,则百尺竿头更进一步,通过将LLM(大语言模型) VLM(视觉语言模型)结合在一起,机器人与环境进行交互的能力进一步提升。

这种思路下,机器人完成任务无需额外数据和训练。

团队表示,CoT让GPT-4能够有效控制Alter3,命令它做各种复杂动作,且不用额外的训练或者微调。

多说两句,除了上述的两个Prompt搞定机器人控制外,研究团队还顺手完成了一些其它研究。

比如掰开了看Alter3在对话中的行为,主要针对其对话轨迹和语义时间演化。

针对对话轨迹,研究团队使用了一种叫UMAP(Uniform Manifold Approximation and Projection)的方法。团队把对话内容嵌入二维空间,从而方便观察这个简化版的对话发展过程。

他们发现,当对话顺序固定时,对话轨迹会呈现循环模式,也就是老在重复同样的话题。

而当对话顺序随机时,对话内容更有发散性or创造性。

贼有趣的一点,研究发现GPT-4聊久了过后,会倾向于反复说“再见”。如果你不来点儿人为干预,它就会沉迷于想办法跟你说再见。

而做语义时间演化分析的过程中,团队观察了随着时间变化,聊天内容的变化。

他们发现,对话初期的一些关键词,比如“艺术”或者“学习”啥的,会聊着聊着就被GPT-4忘了,取而代之的是诸如“文化”“人类”“抑制”之类的词。

这表明对话内容是在逐渐发展变化的。

当然,如果你开始跟GPT-4说“再见”,它就几乎一心一意只想跟你说byebye~(doge)

来自东京大学

这项火爆全网的研究,来自东京大学和日本Alternative Machine公司。

一作Takahide Yoshida,来自东京大学通用系统科学系。

另外两位作者升森敦士(Atsushi Masumori)和池上高志(Takashi Ikegami),都是既在东京大学,又属于Alternative Machine公司。

最后,不得不提到本次研究内容的主人公Alter3,它的幕后研究者也来自东京大学,由东京大学AI研究学者池上高志和日本“机器人之父”石黑浩联袂打造。

Alter3出生于2020年,是同系列机器人第三代产品。

据了解,Alter系列的两次迭代都是在歌剧演唱中完成的。第3代的初亮相就是在东京新国立剧场指挥管弦乐队并参加其他现场表演。

那个时候它的特色是增强了传感器,并改善了唱歌的表达能力和发声系统。

以及身体里那粒能够最终驱动43个气动装置的CPG。

CPG对数据的分析灵敏到什么程度呢?就是如果Alter3呆的房间里如果温度骤降,Alter3会因此打个冷颤,表示自己有被冷到。

这或许也为现在接入GPT-4当脑子后的它,能够活灵活现做表情、完成动作提供了一些基础吧。

One More Thing

说起人形机器人的最新消息,一定要提老马家特斯拉擎天柱Optimus的最新动态:

就在刚刚,马斯克突然在推特发布了Optimus的视频,表示Optimus第二代机器人(Gen 2)将在本月发布。

一点点“微小”的进步是二代Optimus步行速度提升了30%。

平衡感和身体控制能力也有所改善。

一把子期待住了!

参考链接:[1]https://tnoinkwms.github.io/ALTER-LLM/[2]https://arxiv.org/abs/2312.06571[3]https://twitter.com/elonmusk/status/1734763060244386074

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
王牌竞速:OpenAI的GPT-4被超了
21世纪经济报道记者孔海丽、实习生张奕丹 北京报道这场世人瞩目的国际竞..
全球首个开源GPT-4出世!Llama 3震撼发布,Meta AI免登录可用..
编辑:编辑部【新智元导读】蛰伏许久,Meta刚刚扔出了重磅炸弹:大家期待..
讯飞星火大模型V4.0体验:全面进化,体验不输GPT-4o
在 6 月 27 日举办的讯飞星火 V4.0 发布会上,科大讯飞发布了讯飞星火大..
芝大论文证明GPT-4选股准确率高达60%,人类股票分析师要下岗?..
编辑:编辑部【新智元导读】GPT-4在为人类选股时,表现竟然超越了大部分..
大模型开车哪家强?普渡研究给指南:GPT-4真行啊
白交 发自 凹非寺量子位 | 公众号 QbitAI现在一句口令,就能指挥汽车了。..
谷歌:GPT-4高阶心智理论彻底击败人类!第6阶推理讽刺暗示全懂了..
编辑:Aeneas 好困【新智元导读】刚刚,谷歌DeepMind、JHU、牛津等发布研..
潞晨尤洋:视频生成的GPT-4时刻,3年后可以见证 | MEET 2025..
编辑部 发自 凹非寺量子位 | 公众号 QbitAI奥特曼说,Sora代表了视频生成..
通义千问GPT-4级主力模型降价97%,1块钱200万tokens
5月21日,阿里云方面宣布,通义千问GPT-4级主力模型Qwen-Long,API输入价..
一夜封神!Llama 3.1大模型震撼发布,真正的全民GPT-4时代来了..
Meta更新了许可证,允许开发人员首次使用包括405B参数规模的Llama模型的..
关于作者
无根草(普通会员)
文章
738
关注
0
粉丝
2
点击领取今天的签到奖励!
签到排行

成员 网址收录40386 企业收录2981 印章生成229722 电子证书1008 电子名片58 自媒体46281

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索