深度 | AI机器人正在迎来GPT时刻-脚本导航

> 自媒体 > （AI）人工智能 > 深度 | AI机器人正在迎来GPT时刻

深度 | AI机器人正在迎来GPT时刻

来源：BXBR社

2023-11-24 13:24:26

242

管理

文章主要观点：

基础模型方法：类似于 GPT，目标是为机器人学开发一个通用的 AI 模型，使其能够适应各种任务，而不是为每个场景创建专门的模型。这种方法允许 AI 利用多样化任务的学习，并更好地概括到新情况。

基于大型高质量数据集的训练：这种进步的关键是获得广泛且多样化的数据。对于机器人学来说，这意味着获取基于真实世界物理互动的广泛数据，这比用于语言或图像处理的数据集更具挑战性。

强化学习（RL）的作用：RL，尤其是基于人类反馈的强化学习（RLHF），至关重要。这涉及通过试错过程训练 AI，并受到人类偏好的指导，使其能够以人类水平或更好的能力执行任务。

机器人 AI 的挑战：物理世界呈现出独特的挑战。机器人学领域的 AI 必须适应不同行业中的不同硬件应用，并应对复杂的物理要求。此外，训练这些模型需要从真实世界互动中创建一个大型、高质量的数据集，这比数字数据更复杂。

未来展望：该领域即将迎来爆炸性增长，机器人应用已经在真实世界环境中部署，如仓库和配送中心。这些环境非常适合训练 AI 模型，因为它们提供了大量且多样化的任务和数据。

Chen 的见解表明，不久的将来，AI 驱动的机器人学可能会显著影响物流、制造、零售、农业和医疗等行业，通过提高效率和自动化重复性任务。这一进步将标志着 AI 应用的重大转变，从数字空间转移到物理世界的互动。

以下是全文翻译：

人工智能机器人的“GPT 时刻”即将到来

作者：Peter Chen

Image Credits: Robust.ai

Peter Chen 是全球领先的人工智能机器人公司 Covariant 的 CEO 和联合创始人。在创立 Covariant 之前，Peter 曾是 OpenAI 的研究科学家，以及伯克利人工智能研究 (BAIR) 实验室的研究员，专注于强化学习、元学习和无监督学习。

众所周知，基础模型已经改变了数字世界中的人工智能。像 ChatGPT、LLaMA 和 Bard 这样的大型语言模型彻底改变了人工智能在语言方面的应用。虽然 OpenAI 的 GPT 模型并非唯一的大型语言模型，但它们通过接受文本和图像输入并提供类人的响应——甚至在一些需要复杂问题解决和高级推理的任务上——获得了最广泛的主流认可。

ChatGPT 的广泛采用在很大程度上塑造了社会对这一新时代人工智能的理解。

将定义未来几代人工智能的下一个进步是机器人学。构建能够学习如何与物理世界互动的人工智能机器人将提升从物流、运输、制造到零售、农业乃至医疗等行业的所有重复性工作形式。它还将在物理世界中释放出我们在过去几十年中在数字世界中看到的同样多的效率。

尽管机器人学与语言相比有一套独特的问题需要解决，但在核心基础概念上存在相似之处。一些人工智能领域最聪明的头脑已经在构建“机器人学的 GPT”方面取得了重大进展。

GPT 成功的原因是什么？

要了解如何构建“机器人学的 GPT”，首先要看看促成 GPT 等大型语言模型成功的核心支柱。

基础模型方法

GPT 是一个训练有素的、数据集庞大且多样化的 AI 模型。工程师以前会收集数据并为特定问题训练特定的 AI。然后他们需要收集新数据来解决另一个问题。又出现了一个问题？再次需要新数据。现在，随着基础模型方法的出现，情况正好相反。

与其为每个用例构建专门的 AI，不如使用一个通用的 AI。而这一个非常通用的模型比每一个专门的模型都更成功。基础模型中的 AI 在特定任务上表现更好。它可以利用从其他任务中学到的技能并更好地概括到新任务，因为它已经学会了在多样化的任务集上表现良好所需的额外技能。

在大型、专有和高质量的数据集上训练

要拥有一个通用的 AI，首先需要访问大量多样化的数据。OpenAI 已经相当高效地获取了训练 GPT 模型所需的现实世界数据。GPT 已经在整个互联网上收集到的大型多样化数据集上进行了训练，其中包括书籍、新闻文章、社交媒体帖子、代码等等。

构建能够学习如何与物理世界互动的人工智能机器人将提升所有形式的重复性工作。

数据集的大小并不是唯一重要的；策划高质量、高价值的数据也起着巨大的作用。GPT 模型之所以能够取得前所未有的性能，是因为它们的高质量数据集主要是根据用户关心的任务和最有帮助的答案来选择的。

强化学习 (RL) 的作用

OpenAI 采用基于人类反馈的强化学习 (RLHF) 来使模型的响应与人类偏好一致（例如，被认为对用户有益的内容）。因为单纯的监督学习 (SL) 只能用明确的模式或一组示例来解决问题，所以需要不仅仅是纯粹的 SL。大型语言模型要求 AI 实现一个没有唯一正确答案的目标。进入 RLHF 领域。

RLHF 允许算法通过试错朝着一个目标前进，同时人类确认正确的答案（高奖励）或拒绝错误的答案（低奖励）。AI 找到最能解释人类偏好的奖励函数，然后使用 RL 学习如何达到那里。通过从人类反馈中学习，ChatGPT 能够提供与人类能力相媲美或超越人类能力的响应。

基础模型的下一个前沿是机器人学

使 GPT 能够看、思考甚至说话的核心技术，也使得机器能够看、思考和行动。由基础模型驱动的机器人可以理解它们的物理环境，做出明智的决策，并根据不断变化的环境调整它们的行动。

正如 GPT 的构建方式一样，“机器人学的 GPT”正在被构建——为将再次重新定义我们所知道的人工智能的革命奠定基础。

基础模型方法

通过采用基础模型方法，您还可以构建一个在物理世界中多个任务上工作的 AI。几年前，专家建议为挑选和包装杂货的机器人制造专门的 AI。这与可以对各种电子零件进行分类的模型不同，这又与从卡车上卸货物的模型不同。

这种向基础模型的范式转变使 AI 能够更好地应对在非结构化的现实世界环境中经常存在的边缘情况，否则可能会使训练更狭窄的模型感到困惑。构建一个适用于所有这些场景的通用 AI 更为成功。正是通过在所有事物上进行训练，我们才能获得前几代机器人所缺乏的人类级别的自主性。

在大型、专有和高质量的数据集上训练

教授机器人学习哪些行动会导致成功，哪些会导致失败非常困难。这需要基于真实世界物理互动的广泛高质量数据。单一实验室设置或视频示例不是可靠或足够强大的来源（例如，YouTube 视频无法转换物理互动的细节，学术数据集往往在范围上有限）。

与语言或图像处理的人工智能不同，目前没有现成的数据集来规范机器人与物理世界的互动。因此，在机器人领域，构建大规模、高质量的数据集变得更加复杂，而只有部署一支机器人团队才能建立一个多样化的数据集。

强化学习的角色

与以人类水平能力回答文本问题类似，机器人的控制和操作需要一个能够追求目标进展的智能体，而这个目标没有单一、唯一、正确的答案（例如，“如何成功地拿起这个红洋葱？”）。再次强调，仅仅依靠监督学习是不够的。

要在机器人领域取得成功，需要使用深度强化学习（Deep RL）。这种自主的、自学习的方法将强化学习与深度神经网络相结合，以实现更高水平的性能——人工智能将自动调整学习策略，并在遇到新场景时不断优化技能。

挑战和爆炸性增长即将到来

在过去的几年里，一些世界顶级的人工智能和机器人专家为机器人基础模型的革命奠定了技术和商业基础，这将重新定义人工智能的未来。

尽管这些人工智能模型的构建方式与GPT类似，但在物理世界实现人类级别的自主性是一个不同的科学挑战，原因有两点：

1. 构建一个能够适应各种真实世界环境的基于人工智能的产品具有复杂的物理要求。人工智能必须适应不同的硬件应用，因为很难想象一种硬件能够适用于各个行业（物流、运输、制造、零售、农业、医疗等）以及每个行业内的各种活动。

2. 仓库和分销中心是物理世界中人工智能模型的理想学习环境。在任何给定时刻，这些设施都可能有数十万甚至数百万个不同的存货单位（SKU）流动，提供了训练“机器人GPT”所需的大规模、专有和高质量数据集。

人工智能机器人的“GPT时刻”即将到来

机器人基础模型的增长轨迹正在以极快的速度加速。已经在真实的生产环境中应用了机器人应用，特别是需要精确物体操作的任务，预计到2024年将会看到大量商业可行的机器人应用的规模化部署。

Chen在全球顶级人工智能和机器学习期刊上发表了30多篇学术论文，为该领域做出了重要贡献。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

奇安信：Q-GPT安全机器人及大模型卫士提高运营效益

5个月前

用GPT-4训练机器人，英伟达最新Agent开源：任务越复杂越拿手

5个月前