训练机器人,AI比人类更拿手!
英伟达最新AI AgentEureka ,用GPT-4生成奖励函数,结果教会机器人完成了三十多个复杂任务。
比如,快速转个笔,打开抽屉和柜子、抛球和接球。
英伟达科学家,也是此次共同作者之一Jim Fan评价到,它是超级人类奖励工程师。它可以辅助机器人工程师设计复杂任务。
目前该项目完全开源。
GPT-4生成奖励策略在机器人学习中,大模型擅长生成高级语义规划和中级操作,比如拾取和放置(VIMA、RT-1等),但在复杂任务控制方面有所欠缺。
而Eureka的关键所在,就是通过上下文来实现了人类水平的奖励算法设计。
简单来说,就是用GPT-4的零样本生成、代码编写以及上下文改进功能,对奖励执行策略进行优化,由此通过强化学习来进行复杂的技能。
这些环境包括10种不同的机器人形态,比如四足机器人、四旋翼机器人、双足机器人、机械手等。
让研究人员惊讶的是,尤其在处理复杂、高维电机控制的任务上,Eureka表现更好,且与人类奖励的相关性越低。
甚至在少数情况下,AI的策略与人类的策略呈现负相关。
这就有点像当年 AlphaGo的下棋策略,人类看不懂学不会,但十分有效。
英伟达出品这项研究由英伟达、宾夕法尼亚大学、加州理工学院、德州大学奥斯汀分校的研究人员来完成。
可以看到的是,近半数研究人员都是华人。
一作是Yecheng Jason Ma,目前是宾大GRASP 实验室的四年级博士生,研究方向是强化学习和机器人学习。
英伟达科学家Jim Fan此次也是通讯作者之一。
咳咳,不过至于网友提到的弹钢琴,Jim Fan自己曾分享过:只需几个简单按钮,AI就能实时即兴生成演奏音乐。
不知道,未来会不会这样的呢?(不过,这研究已经是2018年的了)
论文链接:https://arxiv.org/abs/2310.12931GitHub链接:https://github.com/eureka-research/Eureka参考链接:https://venturebeat.com/ai/new-nvidia-ai-agent-powered-by-gpt-4-can-train-robots/https://twitter.com/DrJimFan/status/1715397393842401440
— 完 —
量子位 QbitAI · 头条号签
关注我们,第一时间获知前沿科技动态约
相关文章
猜你喜欢