> 自媒体 > (AI)人工智能 > 三大技术突破 数字AI机器人+NExT-GPT #人工智能
三大技术突破 数字AI机器人+NExT-GPT #人工智能
来源:老卢程序员
2023-10-31 13:18:58
177
管理

在本周最新的人工智能和机器人技术突破中我们偷窥了第一个大型人形机器人计划。我们揭示了人类与人工智能互动的下一个层次,最后我们揭示了多模式人工智能的最新前沿向人工智能的飞跃令人瞠目结舌。

Story 1: Digit Humanoid。在第一个故事中敏捷机器人超越了波士顿动力公司和ory 1: Digit Humanoid。拥有人工智能能力的特斯拉以及第一家大型人形机器人工厂的建设可能会给特斯拉推出其所谓的机器人工厂的雄心壮志蒙上阴影。

这个位于俄勒冈州的7万平方英尺的工厂将大规模生产名为Digit的开创性人形机器人它被设计为两条腿和两条手臂可以作为一个协作设备自由操作并在不同的环境中与人类一起工作。但机器人的人工智能能力才是真正的亮点。在演示中digit通过视觉检测地板上的垃圾并接收语音命令告诉它清理混乱令人印象深刻。

这种设计选择强调功能和效率而不是复杂性因为像人一样的手会给机器人结构增加不必要的复杂性。根据公司的说法第一个数字用于仓库和工厂设置目的是优化物流和材料运输计划于明年正式推出每台价格仅为25万美元此外该公司还计划在不久的将来提供租赁和租赁选项。

与此同时人们仍然担心人形机器人会抢走人类的工作,但AgilityRobotics公司表示他们认为Digit是一个普通人而不是替代品,因此digit被认为是一个和谐的合作者填补了通常不受欢迎重复或更危险的工作角色以增加工作场所的安全性和便利性。

与此同时在第二个故事中来自上海人工智能实验室,南洋和卡内基梅隆大学的研究人员刚刚公布了一项名为统一的人类场景交互的突破。通过提示的联系人链这个开创性的框架在基于语言命令的统一和长期控制方面取得了新的进展通过其一系列令人印象深刻的功能提升了人类与人工智能交互的范围包括细粒度控制与同一对象的各种交互以及多对象交互功能。

但令人难以置信的是,新疆巧妙地集成了一个大型语言模型规划器将语言提示转换为结构化任务计划,再加上一个统一的控制器将联系人链无缝地转换为统一的任务执行。这种协同作用产生了一个统一的连贯的机制为前所未有的多样化和有效的人类人工智能互动铺平了道路。

为了确保UniHSI的鲁棒性和适用性,一个名为场景计划的新数据集已经组装完成其中包含了反映一系列不同场景的大型语言模型产生的数千个任务计划。

为了确保UniHSI的鲁棒性和适用性,一位名为场景计划的新数据集已经组装完成其中包含了反映一系列不同场景的大型语言模型产生的数千个任务计划,将playsplaysplaysplaysONE s petweennumanjoinis and e.luba c hnsi[torso 沫 pillow},并进行了综合实验验证。

单一HSI框架的多功能性和有效性展示了其对真实扫描场景的适应性和通用性表明其在平衡人类AI交互方面的潜力。这个开创性的管道的组成部分是LLM规划器和统一控制器它们一起工作创造了一个流畅的互动体验。

LLM规划器处理语言输入和背景场景信息以接触链的形式生成多步骤计划统一控制器执行精心产生交互动作展示技术与人力输入的无缝融合。最后在本周最惊人的突破中新加坡大学Next实验室的研究人员刚刚公布了广义人工智能的下一个梯队。NextGPT最复杂的任意到任意多模态大型语言模型集中体现了多模态智能和交互。

随着我们朝着实现通用人工智能的圣杯前进多模态大型语言模型已经取得了显著的进步,但它们主要局限于输入侧的多模态理解缺乏跨各种模态生成内容的能力。重要的是人类的经验是多方面的。我们通过多种方式感知世界和交流,这就需要开发能够以任何形式交互和生成内容的多媒体。

这就是下一代GPT超越这些限制的地方,它作为一个综合系统将llm与多模态适配器和各种扩散解码器连接起来,因此它能够感知和生成文本图像视频和音频的输入和输出标志着其结构核心向更多拟人化人工智能研究迈出了重要一步。

其次GPT采用三层体系主要关注多模态编码LM理解和推理以及多模态生成。它还利用像ImageBind这样的模型对其六种模式的输入进行编码并使用Vicuna作为语义理解和推理的核心代理。这种方法允许使用基于变压器的输出投影层从LLM生成带有特定指令的多模态内容。

最重要的是这个复杂的模型采用现有的高性能编码器和解码器只需要调整少量的参数促进低成本的训练和方便扩展到其他潜在的模式。

·4:Illustration of modality-switching mn粗犷ion tun.它还引入了模式切换指令调优,这使得复杂的跨模型效率理解和基于精心策划的高质量数据集的内容生成成为可能。

NextGPT所体现的进步预示着创造一个能够建模通用模式的人工智能代理的巨大潜力。

最后下一个GPT使用所谓的轻量级多模态对齐学习它将不同的输入模态与文本特征空间对齐以最小化模型信号标记表示与扩散模型的条件文本表示之间的距离。这种一致性确保了连贯和有效的交互使人工智能模型更接近于人类的交互和相互理解。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
ChatGPT 账号已注册,想对话AI的铁子们留言哦
ChatGPT:一个由 OpenAI 训练的大型语言生成模型ChatGPT 是一个高度可定..
今天上班试用ChatAI,自动生成的俄乌战争分析。大数.....
全球不同地区和国家的经济增长和发展状况,与俄乌战争之间存在明显的联系..
硅谷明星产品经理 Peter Deng加盟 OpenAI
品玩6月1日讯,据领英页面显示,硅谷知名产品经理 Peter Deng 现已加盟 O..
浙江首批人工智能本科生即将毕业,月薪10万?ChatGPT这样回答..
随着科技的不断进步和发展,人工智能正在成为当前最热门的话题之一。我们..
女财务接“老板”电话被拉入“公司领导群”,转款51万后发现被骗,警方全部..
接到“老板”电话后,四川内江某工程公司的财务人员祝某被拉入一个QQ群,..
如何提高 情商 会接话 聊天#高情商
提高情商和聊天技巧是一个长期的过程,需要不断地学习和实践。以下是一些..
OpenAI 超 700 名员工联名逼宫董事会,不解散就跳槽微软..
小米手机遭刻意抹黑,雷军 @小米品牌安全“出击”11月20日,雷军本人专门..
人人都知道选择比努力重要,但是你真的知道怎么选择吗..
想了解普通人逆袭的方法请关注我,点赞并在评论区联系我。人人都知道选择..
谷歌开放AI聊天机器人Bard,新增语言支持、支持记录导出等..
IT之家 5 月 11 日消息,谷歌在 I / O 开发者大会上,进一步丰富了 AI 聊..
关于作者
唐师(普通会员)
文章
420
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40334 企业收录2981 印章生成192878 电子证书830 电子名片52 自媒体25496

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索