造一个真正能烧饭的机器人堪比“登月”，GPT能破解这一难题吗-脚本导航

> 自媒体 > （AI）人工智能 > 造一个真正能烧饭的机器人堪比“登月”，GPT能破解这一难题吗

造一个真正能烧饭的机器人堪比“登月”，GPT能破解这一难题吗

来源：文汇

2025-03-24 10:11:07

153

管理

日前，OpenAI为其重金押注的人形机器人Figure 01装上了GPT“大脑”。能识别周围环境看清“眼”前的物品，能推理和决策下一步行动，还能通过记忆反思对行为作出评价——通过自我学习做到这一切，Figure 01的表现令人惊呼它已“无限接近人类”。

一直以来，无法应对未知情况是机器人亟需提升的能力短板，以至于看似简单的烧饭被业界视为“登月式的目标”，至今没有一个机器人能做到。GPT的出现，则为机器人再造一个精明而实用的“大脑”提供了可能。比起文本生成、文生视频，能做出一个帮你烧饭洗碗打扫屋子的智能机器人或将是大模型更具意义的一个应用方向。

——编者

如今，从上海到纽约，世界各地的餐馆里，都有机器人烹制美食。它们制作汉堡、印度薄饼、披萨，还会炒菜。其烹饪方式与过去50年间机器人制造其他物品的方式大致相同：精确地遵循指令，一遍又一遍地以相同的方式执行相同的步骤。

美国南加州大学计算机科学博士伊沙卡·辛格却想造一个真正能做饭的机器人：这个机器人能走进厨房，在冰箱和橱柜里翻找食材，并将其巧妙结合，烧出一两道美味的菜，然后摆好餐具。

这种连一些孩子都能做到的简单事情，截至目前，没有一个机器人能做到。要做到这件小事，需要机器人对某个厨房有充分的了解，还需要掌握很多常识，并且得足够灵活多变、足智多谋，以至于机器编程无法实现。

辛格表示，最大的问题在于机器人研制者使用了经典的规划管线。“他们在形式上定义了每个动作及其前提条件，并预测其效果。”她说，这种规划管线规定了环境中所有可能或不可能的事情。即使经过多轮实验，即使编写成千上万行代码，但由此创造的机器人还是无法应对其程序未曾预知的情况。

辛格的导师、美国南加州大学计算机科学教授杰西·托马森表示，这个烧饭的场景“始终是一个登月式的目标”。如果机器人能胜任人类的任何日常琐事，许多行业将发生巨变，人们的日常生活将变得轻松。

要实现这一目标，机器人需要“换脑”。长期以来，人们都希望在机器人体内植入一个精明而实用的大脑，但过去几十年一直找不到这样的大脑。不过，ChatGPT的横空出世，为机器人“换脑”燃起了新的希望。

这个计算机程序以及越来越多的其他大语言模型，能够根据用户的需求生成文本，模仿人类的口头和书面语言。ChatGPT目前已经接受了大量有关晚餐、厨房、食谱的信息训练，几乎可以回答机器人提出的关于在特定厨房中将特定食材烧成一顿饭的任何问题。

大语言模型具备机器人所缺乏的东西——人类笔下关于几乎一切事物的知识，从量子物理到韩流音乐，再到三文鱼片的解冻。同样，机器人也具备大语言模型所缺乏的东西——能够与周围环境互动，将语言连接到现实行动中。

将无意识的机器人和无身体的大语言模型拼合起来，似乎是唯一合乎逻辑的做法。正如一篇论文所述，“机器人可以充当语言模型的‘手和眼睛’，而语言模型则提供关于任务的高级语义知识。”

ChatGPT让机器人“顿悟”

2022年末，ChatGPT的发布对Levatas公司的工程师来说“像是一个顿悟时刻”。

这是一家专门设计巡视检查工业场所所需软件的公司。借助ChatGPT和波士顿动力公司的技术，该公司拼出了一个机器狗原型。这只机器狗可以说话、回答问题，并能够遵循以一般英语口语给出的指令。此外，机器狗似乎不仅能理解单词的含义，还能掌握背后的意图。比如A说“后退”，B说“退后”，它“知道”他们表达的是相同含义。有了机器狗，工人们便不再需要仔细查看上一次巡检时的机器数据表，他们只需简单地询问：“你上次去的时候，有哪些读数超出了正常范围？”

不过，机器无论是进行自主推理，还是按部就班行事，许多人都非常担忧它在现实世界中的能力。与传统编程相比，大语言模型本质上更不可靠、更不可知，这让许多专业人士感到忧心。托马森说：“有些机器人专家认为，要告诉机器人做某件事却不约束该事物的含义，这并不好。”

心理学家、科技企业家加里·马库斯虽称赞谷歌的PaLM-SayCan项目“令人难以置信”，但他实际上对大语言模型持怀疑态度，去年夏天他就对该项目提出了反对意见。马库斯认为，如果大语言模型误解了人类的需求，或未能充分理解需求的含义，那么它们在机器人内部可能会变得危险。当人类提出的需求本身有恶意时，大语言模型理解了人类的意愿，也可能造成伤害。

除了不能完全理解语义，大语言模型还有一个问题——偏见。大语言模型依赖人类产生的数据，但它并不是所有知识的存储库。互联网上存在感较低的语言、文化、民族，其实并没有纳入其中。例如，根据最新估计，非洲约有2000门语言，仅有约30门纳入了几个主要大语言模型的训练数据中。因此，去年11月在arXiv上发布的一篇研究预印本发现，GPT-4和另外两个热门大语言模型在使用非洲语言时的表现比使用英语时差得多。

此外，模型训练所依赖的数据——取自数字资源的数十亿单词——包含了大量有关人的偏见和刻板印象。美国卡内基梅隆大学的人工智能和机器人研究员安德鲁·亨特说，大语言模型如果在其训练数据中注意到了刻板印象，可能会在其回答中刻意模仿，且使用频率高于数据集中的数据。亨特认为，大语言模型的制造者可以拦截包含这些刻板印象的恶意提示，但这还不够，“在大语言模型可以应用于机器人之前，需要进行广泛研究，采取一系列安全措施”。

但目前还不必担心一件事，那就是大语言模型驱动的机器人会产生危险。机器就像人类一样，说永远比做容易。谷歌公司的豪斯曼说：“我们在很多小事情上就遇到了瓶颈，比如打开抽屉、移动物体，这些事情也是至少到目前为止，语言帮不上大忙的技能。”

目前，大语言模型带来的最大挑战不是它们的机器人身体，而是它们以神秘的方式模仿了人类的许多好事和坏事。泰莱克斯说，大语言模型是“一种互联网格式塔”——互联网的所有精华都在其中，而所有糟粕也都在其中。她说，与大语言模型生成的钓鱼邮件、垃圾邮件或其炮制的假新闻相比，将模型放入机器人也许是可以用它来做的最安全的事情之一。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

大模型三巨头比拼幻觉，Deepseek 最重，ChatGPT o3 - mini 最优

4天前

用chat-GPT造了一个会做花式咖啡的机器人，发表了一篇Nature子刊

4天前