编辑:Aeneas 好困
【新智元导读】给游戏行业来点GPT-4式震撼?这个叫Voyager的智能体不仅可以根据游戏的反馈自主训练,而且还能自行写代码推动游戏任务。
继斯坦福的25人小镇后,AI智能体又出爆款新作了。
最近,英伟达首席科学家Jim Fan等人把GPT-4整进了「我的世界」(Minecraft)——提出了一个全新的AI智能体Voyager。
Voyager的厉害之处在于,它不仅性能完胜AutoGPT,而且还可以在游戏中进行全场景的终身学习!
比起之前的SOTA,Voyager获得的物品多出了3.3倍,旅行距离变长了2.3倍,解锁关键技能树的速度快了15.3倍。
真·数字生命
接入GPT-4之后,Voyager根本不用人类操心,完全就是自学成才。
它不仅掌握了挖掘、建房屋、收集、打猎这些基本的生存技能,还学会了自个进行开放式探索。
它会自己去到不同的城市,路过一片片海洋,一座座金字塔,甚至还会自己搭建传送门。
通过自我驱动,它不断探索着这个神奇的世界,扩充着自己的物品和装备,配备不同等级的盔甲,用盾牌格挡上海,用栅栏圈养动物……
收集仙人掌
打猎
所以,我们离硅基生命出现还有多远?
刚刚回到OpenAI的Karpathy对这个工作表示盛赞:这是个用于高级技能的「无梯度架构」。在这里,LLM就相当于是前额叶皮层,通过代码生成了较低级的mineflayer API。
Karpathy回忆起,在2016年左右,智能体在Minecraft环境中的表现还很让人绝望。当时的RL只能从超稀疏的奖励中随机地探索执行长期任务的方式,让人感觉非常stuck。
而现在,这个障碍已经在很大程度上被解除了——正确的做法是另辟蹊径,首先训练LLM从互联网文本上学习世界知识、推理和工具使用(尤其是编写代码),然后直接把问题抛给它们。
最后他感慨道:如果我在2016年就读到这种对智能体的「无梯度」方法,我肯定会大吃一惊。
寻求新奇的自动课程自然会驱使Voyager进行广泛的旅行。即使没有明确的指示,Voyager也会遍历更长的距离(2.3倍),访问更多的地形。
相比之下,之前的方法就显得非常「懒散」了,经常会在一小片区域里兜圈子。
地图探索率
那么,经过终身学习后的「训练模型」——技能库,表现如何呢?
团队清空了物品/护甲,生成了一个新的世界,并用从未见过的任务对智能体进行了测试。
可以看到,Voyager解决任务的速度明显比其他方法更快。
值得注意的是,从终身学习中构建的技能库不仅提高了Voyager的性能,也提升了AutoGPT的性能。
这表明,技能库作为一种通用工具,可以有效地作为一个即插即用的方法来提高性能。
结果表明,Voyager的性能优于所有替代方案。此外,GPT-4在代码生成方面也明显优于GPT-3.5。
消融实验
结论
Voyager是第一个由LLM驱动、可以终身学习的具身智能体。它可以利用GPT-4不停地探索世界,开发越来越复杂的技能,并始终能在没有人工干预的情况下进行新的发现。
在发现新物品、解锁Minecraft技术树、穿越多样化地形,以及将其学习到的技能库应用于新生成世界中的未知任务方面,Voyager表现出了优越的性能。
对于通用智能体的开发来说,无需调整模型参数的Voyager是可以作为一个起点的。
参考资料:
相关文章
猜你喜欢