ChatGPT 无疑是今年最出圈的科技热点,和之前我们认知中的 AI 不太一样,它拥有更为强大的语言理解和文本生成能力,更能“听懂”人话,做到与真正人类几乎无异的交流,甚至可以写论文、脚本、代码。如此强大的人工智能,只让它活在屏幕里未免有点大材小用,所以越疆工程师们在一番研究后,将 ChatGPT 与越疆协作机器人结合,在物理世界做出了应用实践。
经过训练后,机器人调酒师变得可靠又贴心,拥有更多自主判断能力。比如顾客提出不合理要求,故意要求在长岛冰茶鸡尾酒中放茶时,ChatGPT 会反馈长岛冰茶里并没有茶,其实是各种烈酒和可口可乐混合而成。
更重要的是,在被授予越疆协作机器人控制接口信息后,ChatGPT 会根据不同鸡尾酒的特点,为机器人生成摇酒轨迹和代码。
智能物品分拣
调试机器人需要不低的技术门槛,以往工程师需要输入大量代码来引导机器人运作,操控不同的机器人可能还会涉及不同的编程语言。而在 ChatGPT 的帮助下,工程师可以直接用口语描述想做什么,由 ChatGPT 自动编译成机器语言,充分调动机器人的手、眼、脑指挥机器人行动。
简单的抓取和任务步骤描述自然难不倒机器人和 ChatGPT,为了提升难度,我们要求它在各式物品中抓取一斤橘子,这时 ChatGPT 会多线并行,自动完成水果识别、水果抓取、重量计算等一系列工作并完成任务。
当要求它对桌面物品进行分类时,无需告知细节和步骤,ChatGPT 会自行借助相机识别桌面物品,并自动做出类别判断,完成分类任务,相比以往依靠人工标注分类的机器人而言,运作更为聪明。
从两个方案实践的情况来看,ChatGPT 确实能通过理解和学习人类的语言,结合实际来进行互动,还能快速生成符合不同场景的机器人代码,匹配用户需求,大大减少了开发时间和成本。
从技术层面分析,ChatGPT 大模型学习人类先验知识,融入各类物理感知,以协作机器人为载体,增强了人机交互、人机协作的体验感,让机器人更加智能化、人性化。在此基础上,越疆形成了自己的机器人大规模模型技术框架。
总体技术框架:人类通过自然语言交互下达任务指令,通过语音识别技术转换为文本输入给ChatGPT,ChatGPT 大规模语言模型根据从海量数据中学习的大量人类先验知识(包括语言类知识和世界知识等),以及前期 Prompt 指令的微调训练后(使得 ChatGPT 更有效适应下游任务),理解人类任务指示,可融合视觉、力觉等物理感知信息,做出最终任务决策,并控制机器人执行完成指定任务。
未来,越疆将在“AI 机器人”领域不断创新突破,与更多前沿技术融合碰撞,让协作机器人真正具有自主感知、智能决策、精细操作等特性,并推动大规模模型在机器人先进制造和商业服务业的落地应用。
相关文章
猜你喜欢