> 自媒体 > (AI)人工智能 > 机器人学会转笔、盘核桃了!GPT-4加持,任务越复杂,表现越优秀
机器人学会转笔、盘核桃了!GPT-4加持,任务越复杂,表现越优秀
来源:大数据文摘
2023-11-14 13:38:44
362
管理

大数据文摘出品

家人们,继人工智能(AI)攻占象棋、围棋、Dota之后,转笔这一技能也被 AI 机器人学会了。

机器人盘核桃

而Eureka 能够自主编写奖励算法来训练机器人,且码力强劲:自编的奖励程序在 83% 的任务中超越了人类专家,能使机器人的性能平均提升52%。

Eureka开创了一种从人类反馈中无梯度学习的新途径,它能够轻松吸收人类提供的奖励和文字反馈,从而进一步完善自己的奖励生成机制。

具体而言,Eureka 利用了 OpenAI 的 GPT-4 来编写用于机器人的试错学习的奖励程序。这意味着该系统并不依赖于人类特定任务的提示或预设的奖励模式。

Eureka 通过在 Isaac Gym 中使用 GPU 加速的仿真,能够快速评估大量候选奖励的优劣,从而实现更有效率的训练。接着,Eureka 会生成训练结果的关键统计信息摘要,并指导 LLM(Language Model,语言模型)改进奖励函数的生成。通过这种方式,AI 智能体能够独立地改善对机器人的指令。

在测试中,英伟达的研究团队在每个任务的情境下,使用相同的强化学习算法和相同的超参数对所有最终奖励函数进行了优化。为了测试这些特定任务的超参数是否经过良好调整以确保人工设计的奖励的有效性,他们采用了经过充分调整的近端策略优化(PPO)实现,这个实现基于之前的工作,没有进行任何修改。对于每个奖励,研究人员进行了五次独立的 PPO 训练运行,并报告了策略检查点达到的最大任务指标值的平均值,作为奖励性能的度量。

结果显示:人类设计者通常对相关状态变量有很好的理解,但在设计有效奖励方面可能缺乏一定的熟练度。

Nvidia 的这项开创性研究在强化学习和奖励设计领域开辟了新的疆界。他们的通用奖励设计算法 Eureka 利用了大型语言模型和上下文进化搜索的力量,能够在广泛的机器人任务领域生成人类水平的奖励,而无需特定任务提示或人工干预,这在很大程度上改变了我们对 AI 和机器学习的理解。

租!GPU云资源

新上线一批A100/A800

运营商机房,服务有保障

扫码了解详情☝

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
般若鱼(普通会员)
文章
587
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40369 企业收录2981 印章生成216706 电子证书945 电子名片57 自媒体34015

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索