机器之心原创
作者:张倩
商汤的「既要…… 又要…… 还要……」
6 月 19 日,CVPR 2021 在线上拉开帷幕。作为计算机视觉三大顶会之一,本届 CVPR 大会一共接收了 7039 篇有效投稿,最终有1366 篇被接收为poster,295篇被接收为oral,接收率大概为 23.6%。
论文链接:https://arxiv.org/pdf/2104.10154.pdf
3D 场景重建是 3D 计算机视觉的一个核心任务。例如在增强现实(AR)应用中,为了在 AR 效果和周围的物理环境之间形成自然、沉浸式的互动,3D 重建需要非常精确、连贯,还要保持实时性。虽然使用 SOTA 视觉惯性 SLAM 系统可以精确跟踪摄像机运动,但由于重建质量低、计算要求高,基于图像的实时密集重建仍然是一个具有挑战性的问题。
在一篇CVPR最佳论文候选论文中,商汤的研究者提出了一种新的基于神经网络的单目实时场景 3D 重建系统——NeuralRecon。不同于以往基于深度图估计与融合的方法,NeuralRecon 直接基于图像特征预测用 TSDF 表示的局部 3D 表面,并创新地提出了一个联合 TSDF 重建与融合的框架。实验结果表明,该方法在准确率和速度方面都优于 SOTA 方法。
在 SenseAuto Pilot 智能驾驶方案中,最引人关注的 SenseAuto Pilot-P 驾驶领航方案可实现高速公路场景下的车道跟随、超车自动变道、导航自动变道、自动上下匝道、匝道通行等多种 L2 级高级辅助驾驶功能;已装在多个量产车型中的 SenseAuto Pilot-V 前视视觉感知方案可以提供 200m 前向有效探测,支持自动紧急制动、车道保持辅助、双预警功能,还能有效应对近距离行人 / 非机动车横穿等复杂场景。此外,车道分离 / 汇合点、路面标识、交通灯形状、施工区域锥形筒等长尾场景元素的感知也在这套系统的能力范围之内。
整套系统背后涉及的技术包括激光雷达高精 3D 感知、点云噪声识别、轨迹预测、长尾目标检测等,这些都出现在了今年的 CVPR 接收论文中。商汤表示,该系统能够在最大程度上发挥摄像头、毫米波雷达、激光雷达等传感器的感知优势,显著提升 3D 目标的检测和跟踪性能,提供智能的道路动态目标轨迹预测,支撑系统安全可靠地拓展至城市工况场景。
SenseAuto Pilot-P 驾驶领航方案可以精准识别道路分离、合并点,帮助车辆在匝道内进行合理决策,实现自动上下匝道的 L2 级高级辅助驾驶功能
SenseAuto Cabin 智能车舱解决方案同样令人眼前一亮,涵盖 SenseAuto Cabin-D 驾驶员感知系统、SenseAuto Cabin-O 座舱感知系统 、SenseAuto Cabin-K 智能进入、SenseAuto Cabin-V 座舱域视觉控制器等模块。这些功能可以为驾驶员提供无接触的车舱交互,减少点触操作频率;对疲劳、分心以及接打手机等危险行为进行提醒;还能自动感知是否有儿童被独自遗留在车内等。这背后离不开成熟的目标检测、跟踪、识别等视觉算法。
目前,商汤在智能车舱领域已经和全球超过 30 家头部企业展开合作,定点量产项目数超过 30 个,覆盖车辆总数超过 1300 万辆。
搭载了商汤 SenseAuto Cabin 智能车舱解决方案的 WEY 全新旗舰车型摩卡首次亮相上海车展。
从智能驾驶到智能车舱,可以看到商汤落地的步伐正在加快。这不仅得益于其与生俱来的创新能力,也离不开丰富的算力资源和算法、数据等方面的积累。这些成果共同构成了商汤正在建设的AI基础设施——SenseCore商汤AI大装置。林达华透露,这个 AI 大装置不仅帮助商汤缩短了创新验证的周期,还将成为未来十年重要的 AI 基础设施,逐渐提供开放服务,演变成一个面向整个生态、整个社区的具有公共性质的设施。
AI 大装置蓄势待发
在上海临港新片区,一座宛如芯片的建筑群将在今年年底投入使用。这是商汤正在建设的人工智能计算中心(Artificial Intelligence Data Center,AIDC),全部建成后 AI 计算峰值速度将达到 3740 Petaflops(1 petaflop 等于每秒 1 千万亿次浮点运算),可以在一天之内把人类石器时代到现在所有时间录成的视频计算完成,也能在一天之内完整训练 OpenAI 的千亿参数模型 GPT-3。
但是,AIDC 仅仅是商汤 AI 大装置的一部分,而远非全部。从结构上看,整个大装置共分为三层:
一是算力层。该层以 AIDC 为基础,兼容 AI 芯片和 AI 传感器的强大能力。二是平台层。这一层融合了商汤的数据平台、高性能计算引擎、深度学习训练框架(SenseParrots)以及模型生产平台等,打造了创新的人工智能通用算法开发平台,实现从数据存储、标注到模型训练、生产、部署、测试的全链路、批量化过程。三是算法层。这一层包含各种算法工具箱,不仅有城市交通、园区等高频应用场景算法,还有火灾、垃圾检测等长尾低频的算法。截止目前,商汤已经推出 13000 多个技术模型,以及 17000 多个商业模型。同时他们也推出了 OpenMMLab 开源算法体系,该体系已在 Github 上获得 3 万多颗星。建设这么一个 AI 大装置需要投入大量的精力(AIDC 总投资高达 56 亿元),但在商汤看来,这是面向未来必须迈出的一步。
「在经历了几年的产业化之后,AI 已经到了一个全新的阶段,可以说一些简单的问题已经基本上被解决了。下一步就是要深入到更广泛的行业里面,需要新一轮的突破和创新。」林达华说道。
GPT-3 等超大模型的出现让商汤看到了实现下一个突破的希望:「以前我们都是针对一些具体的问题或者高度定制化的场景去生产一些中小模型。但随着 AI 落地推演到越来越广的领域,成千上万的具体问题(长尾问题)开始涌现。如果每个问题都有很多的研究人员投入进去,那么我们就很难深化 AI 的进一步落地。这个时候,整个行业需要通用性更强的模型,用一个模型支撑更多的任务。一方面,这种模型能够让 AI 的研发、落地效率得到一个质的提升;另一方面,它们能够更好地去回应综合场景的问题,比如智慧城市、智慧医疗等。这些任务都需要通过多个任务综合解决。」
但是,模型的通用性越强,需要的数据、算力往往也越多,这便是商汤建设 AI 大装置的底层逻辑。
当然,AI 大装置也不是一朝一夕就建成的。其实早在 2018 年 4 月,商汤就已经开始布局人工智能计算原型机研制项目,虽然当时并不被看好。但好在,后续出现的一些大模型已经显示出了解决长尾问题的巨大潜力。
如今,这个 AI 大装置已经开始发挥它的作用。林达华透露说,「我们几乎所有的研究工作都是在这个大装置的基础上进行的。」「它为做算法研究的同学提供了充足的算力,使他们能够快速地进行实验试错。」此外,大装置中所积累的实用工具也缩短了创新的验证周期。
借助大装置,商汤已经在超大模型技术研究方面取得一定成绩。例如在计算机视觉的卷积神经网络(CNN)领域,通常模型参数都在 1 亿以下,但商汤的 AI 框架 SenseParrots 能支持 50 亿参数超大视觉模型的训练。AIDC 完全投入使用后,计划支持的超大视觉模型训练参数可达更高的数量级。
由于可以显著降低 AI 落地的门槛,商汤的 AI 大装置对于推动整个人工智能行业的发展也有着重要的战略意义。林达华表示,「从整个社会的角度来说,AI 基础设施将逐渐从一个企业内部的平台,发展为逐渐提供开放服务,并最终演变成一个面向整个生态、整个社区的具有公共性质的设施。这些设施的构建能够有效地支撑整个生态,最终使得整个 AI 人才的基础变得更加宽广,从而进一步推动 AI 产业的深化。」
相关文章
猜你喜欢