具身智能的时代已经到来。
今年,ChatGPT的问世与持续进化,让人工智能产业迎来发展新浪潮,人工智能的终极形态也有了具象化的载体——具身智能机器人。
在技术演化路径上,机器人大致要经历三个阶段:从初级机器人的"基本不动 重复执行",逐渐发展到具备"行走 独立执行"的中级机器人,最终发展为具备"自主行走 自主执行"的具身智能机器人。
具身智能机器人的演化,也是由"大脑"带动,逐步向“眼睛”等视觉感知体、“手脚”等运动执行体不断升级迭代的过程,即大脑先行、感知突破、身体完善。
感知的升级,让机器视觉向机器人视觉不断进化,朝着2D升级为3D、高度集成化、适应复杂变化场景的方向发展,开启全新机器人革命,引领新一代人工智能浪潮。
这也给国内以奥比中光为代表的3D视觉玩家带来全新的机遇与挑战。未来,3D视觉多专业融合、底层创新能力、智能视觉算法将成为企业的核心技术竞争力。
——本文为光锥智能×奥比联合出品
1. 具身智能时代重新理解机器人1.1知行合一:“离身”智能逐步向“具身”智能进化
具身智能(Embodied AI)是指具备感知和理解环境的能力,能够与物理世界进行交互,并具备行动能力以完成任务的智能体。相对而言,"离身"(Disembodiment)是指认知与身体分离,比如ChatGPT可以认为是一种离身智能,仅能对语言文本进行理解与对话,无法对真实物理世界产生影响。然而,离身智能必定会向具身智能发展,"知行合一"是必然趋势。
1.2ChatGPT催生了人工智能发展新浪潮:具身智能机器人将成为人工智能终极形态
ChatGPT的出现使得人工智能拥有了"大脑",而高度发达的"大脑"对于身体功能提出了更高要求。因此,在2023年的ITF World半导体大会上,英伟达CEO黄仁勋明确表示,具身智能将是人工智能发展的下一个浪潮。
智能机器人是具身智能最直接的落地应用,当成为具身智能体的时候,机器人将迎来飞速发展。特斯拉2023年3月的投资者日,马斯克认为未来人类和人形机器人的比例将不止是1:1,未来人形机器人可能超过人类数量,达到100亿-200亿规模。
可以说,机器人将逐步演变为具身智能机器人,成为机器人发展的终极目标、也将成为人工智能的终极形态。
Tesla 人形机器人 Tesla Bot「Optimus」原型机正式登场
2. 机器人的发展及未来趋势2.1机器人将完成由“不动”、到“固定动”、再到“自由动”的技术变革,从而进入具身智能机器人时代
机器人的发展大致经历三个阶段:从初级机器人的"基本不动 重复执行",逐渐发展到具备"行走 独立执行"的中级机器人,最终发展为具备"自主行走 自主执行"的具身智能机器人。
大脑方面,GPT、数据、算力等技术的发展给大脑提供了极佳的土壤,已高度智能化。谷歌和微软的AI团队走在前列,2023年3月,谷歌和柏林工业大学的团队重磅推出了史上最大的视觉-语言模型——PaLM-E(Pathways Language Model with Embodied),参数量高达5620亿(GPT-3的参数量为1750亿)。该模型不仅可以理解图像,还能理解、生成语言,可以执行各种复杂的机器人指令而无需重新训练。谷歌研究人员计划探索PaLM-E在现实世界场景中的更多应用,例如家庭自动化或工业机器人。微软团队也在探索如何将OpenAI研发的ChatGPT扩展到机器人领域。
目前,已经有更为轻量化的大模型能够独立运行在边缘端(如机器人、手机)上,为其提供"大脑"功能。这些大模型在某些专业领域通过专门训练,可以接近人类的智能水平,拥有百亿级甚至更低的参数,使得它们可以在边缘设备和终端上运行,不依赖云端计算能力,从而让终端设备也能具备智能决策的能力。比如目前已经可以在手机上运行的大模型有:MobileBERT(Bidirectional Encoder Representations from Transformers),TinyBERT,MobileNet等。
紧随其后的,将是人工智能“眼睛”的爆发式发展。
3. 机器人视觉的发展及未来趋势3.1通用大模型往多模态大模型方向演进,机器视觉向机器人视觉进化
ChatGPT通用大模型仅支持自然语言处理,然而机器人大脑所要处理的信息是多模态的,例如文本、视觉图像、语音等等,因此大模型也正逐步往多模态大模型方向演进。多模态大模型能够将不同模态的信息融合在一起,实现跨模态的理解、生成和推理,与人类大脑的功能最为接近。近期,Meta推出了多模态大模型ImageBind,能够处理文本、音频、3D视觉、温度、IMU信息;华为也将在2023年7月推出 “盘古Chat” 多模态大模型。
随着多模态大模型的发展,当“大脑”具备对视觉信息处理、推理等能力,对“眼睛”的需求便呼之欲出,一方面视觉信息是多模态信息的必要组成部分,二是与人类类比来看,视觉信息在所有感知信息中占比超过70%,也将是人工智能感知世界最重要的信息源。传统机器视觉普遍是2D的模块化视觉设备,应用在相对固定的环境,而具身智能机器人所需要的机器人视觉则是类人眼的小型化、3D的嵌入式器件,且面向的是复杂变化的环境,因此在产品形态以及技术实现上都与传统机器视觉存在巨大差异,机器视觉将向机器人视觉不断进化。
3.2产品形态上,机器人视觉相比传统机器视觉更加 3D化、高度集成化、场景复杂化
(1)2D视觉向3D视觉进化,3D视觉具备毫米级甚至更高精度的视觉能力,可以对真实物体场景进行高精度扫描与还原。传统2D视觉只能应用在“可控规范”的环境中,比如工业产线,而具身智能机器人所面对的是不可控规范的场景,2D视觉无法满足。
(2)模块化向高度集成嵌入式进化,传统机器人例如部分工业机器人所配备的视觉设备大都是模块化的设备,普遍包括光源、镜头、相机、图像采集卡、机器视觉算法、应用软件等模块,其中光源跟相机分开,相机跟镜头分开,相机跟图像采集卡分开,各个部件体积庞大,导致整体体积大、成本高,无法应用于需要广泛普及的具身智能机器人中。
4.2已推出面向具身智能机器人所需要的多种系统布局产品
基于机器人本身算力差别,布局了两种系统方案,一种是针对机器人本身具备较高计算能力的,仅提供低成本的嵌入式视觉传感器,传感器本身不带智能视觉算法;二是自带边缘算力的智能视觉传感器,传感器可自行执行算法及软件,可以应用在本体不具备额外算力的机器人上。
4.3全球范围内成功落地多种机器人视觉应用
奥比中光在过去的十年里,一直致力于给机器人提供智能化眼睛,推动机器人视觉发展,相应视觉产品已经在商用清洁、配送、迎宾、教育、仓储物流等多个领域成功落地,服务于各种类型的机器人,包括轮式机器人、机械臂、多足机器人以及人形机器人。
(1)在商用清洁领域,搭载奥比中光DaBai双目结构光相机的高仙清洁机器人可以自动识别、清理垃圾,并在复杂的户外环境中自动避障,极大地提升了清洁效率。
(2)在送餐领域,搭载奥比中光DaBai Pro双目结构光相机的普渡送餐机器人可实现在餐厅复杂环境下遇障即停,随转即走,做到3D全向避障。
(3)在工业领域,搭载奥比中光DaBai DCW双目结构光相机和MS500单线激光雷达的AMR可实现在智慧工厂环境下的货物自动转运,极大提高生产效率。
(4)CES2023,由奥比中光和微软、英伟达联合研发制造的深度相机Femto Mega首次亮相,该相机融合微软第一代深度相机Azure Kinect的全部性能,并集成英伟达Jetson Nano深度算力平台,成为物流、机器人、制造、工业、零售、医疗保健和健身解决方案等领域3D视觉开发的理想选择。
(5)COMPUTEX 2023(台北国际电脑展)正式举办。NVIDIA创始人兼CEO黄仁勋在 COMPUTEX 2023大会主题演讲中介绍了NVIDIA全球产业数字化生态布局,作为其合作伙伴,奥比中光正式宣布将Femto Mega和其它3D相机集成到NVIDIA Omniverse生态开发平台中。NVIDIA Omniverse是一个开放的开发平台,用于构建和运行元宇宙应用。在奥比中光3D相机集成到Omniverse后,使用NVIDIA Isaac Sim(一种机器人模拟工具包)的客户就能够快速设计其3D视觉系统,提高AI系统设计和测试的真实性和精确性。
5. 结语毋庸置疑,具身智能机器人将开启全新机器人革命、引领新一代人工智能浪潮,通用大模型向多模态大模型发展,机器视觉向机器人视觉进化,站在新一轮科技革命历史机遇上,奥比中光将通过核心技术打造机器人视觉产品,通过产品的推广应用助力具身智能机器人视觉技术进步与行业发展。
相关文章
猜你喜欢