> 自媒体 > (AI)人工智能 > 有了GPT-4之后,机器人把转笔、盘核桃都学会了
有了GPT-4之后,机器人把转笔、盘核桃都学会了
来源:高交会
2023-10-31 13:10:41
236
管理

GPT-4 和强化学习强强联合,机器人的未来将是什么样子?

在学习方面,GPT-4 是一个厉害的学生。在消化了大量人类数据后,它掌握了各门知识,甚至在聊天中能给数学家陶哲轩带来启发。

与此同时,它也成为了一名优秀的老师,而且不光是教书本知识,还能教机器人转笔。

此外,Eureka 还实现了一种新型的 in-context RLHF,它能够将人类操作员的自然语言反馈纳入其中,以引导和对齐奖励函数。它可以为机器人工程师提供强大的辅助功能,帮助工程师设计复杂的运动行为。英伟达高级 AI 科学家 Jim Fan 也是该论文的作者之一,他将这项研究比喻为「物理模拟器 API 空间中的旅行者号(美国研制并建造的外层星系空间探测器)」。

值得一提的是,这项研究是完全开源的,开源地址如下:

实验

实验部分对 Eureka 进行了全面的评估,包括生成奖励函数的能力、解决新任务的能力以及对人类各种输入的整合能力。

实验环境包括 10 个不同的机器人以及 29 个任务,其中,这 29 个任务由 IsaacGym 模拟器实现。实验采用了 IsaacGym (Isaac) 的 9 个原始环境,涵盖从四足、双足、四旋翼、机械手到机器人的灵巧手的各种机器人形态。除此以外,本文还通过纳入 Dexterity 基准测试中的 20 项任务来确保评估的深度。

Eureka 还能产生新颖的奖励。本文通过计算所有 Isaac 任务上的 Eureka 奖励和人类奖励之间的相关性来评估 Eureka 奖励的新颖性。如图所示,Eureka 主要生成弱相关的奖励函数,其表现优于人类的奖励函数。此外,本文还观察到任务越难,Eureka 奖励的相关性就越小。在某些情况下,Eureka 奖励甚至与人类奖励呈负相关,但表现却明显优于人类奖励。

本文还研究了从人类奖励函数初始化开始是否对 Eureka 有利。如图所示,无论人类奖励的质量如何,Eureka 都会从人类奖励中改进并受益。

人形机器人通过 Eureka 学习跑步步态。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
关于作者
吴月(普通会员)
文章
371
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40329 企业收录2981 印章生成186765 电子证书796 电子名片49 自媒体20815

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索