M2BEV:采用统一BEV表征的多摄像头联合3D检测分割
  rNykiPQ3Q0kH 2023年11月02日 34 0


作者丨黄浴

arXiv2022年4月上传论文“M2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified Bird’s-Eye View Representation“,作者来自多所大学和公司,包括香港大学、新加坡国立、英伟达、多伦多大学、Vector研究院(多伦多)和加州理工。

M2BEV:采用统一BEV表征的多摄像头联合3D检测分割_3d

本文提出M2BEV,一个多摄像机图像输入、在BEV空间中联合执行3-D目标检测和地图分割的统一框架。与以往大多数分别处理检测和分割的工作不同,M2BEV使用统一的模型推断这两个任务,并提高了效率。M2BEV将多视图2D图像特征有效地转换为汽车坐标系下的3D BEV特征。这种BEV表征非常重要,可以让不同的任务共享一个编码器。该框架包含四个重要的设计,对准确性和效率都有好处:(1)有效的BEV编码器设计,减少了体素特征图的空间维度。(2) 一种动态框分配策略,用学习-匹配(learning-to-match)来分配带有锚点的真实3D框。(3) BEV中心重加权,更大的权重对较远距离的预测强化;(4)大规模2D检测预训练和辅助监督。M2BEV的内存效率很高,以更高分辨率图像作为输入,推理速度更快。在nuScenes数据的实验表明,M2 BEV在3D目标检测和BEV分割方面都达到了最好效果,最佳单一模型分别达到42.5 mAP和57.0 mIoU。

项目网页:https://xieenze.github.io/projects/m2bev/


现有基于摄像头的方法不适用于360度多任务自动驾驶感知。三种主流基于摄像头的方法包括:(1)单目3D目标检测方法,例如CenterNet和FCOS3D,分别预测每个视图中的3D边框。需要额外的后处理步骤来融合不同视图的预测,并删除冗余的边框。这些步骤通常不可靠,也不可区分,不适合与下游规划任务进行端到端联合推理。(2) 基于伪激光雷达的方法,例如pseudo- LIDAR。这些方法可以重建具有预测深度的3-D体素,但对深度估计中的错误非常敏感,通常需要额外的深度标注和训练的监督。(3) 基于Transformer的方法。最近,DETR3D使用了一个transformer框架,将3D目标查询投影到多视图2D图像,并以自上而下(top-down)的方式与图像特征交互。尽管DETR3D支持多视图3D检测,但它不支持BEV分割和多任务处理,因为它只考虑目标查询,而没有致密的BEV表征。


如图就表明了两种不同的方法:上图是传统的任务特定的流水线,而下图是M2BEV方法。

M2BEV:采用统一BEV表征的多摄像头联合3D检测分割_3d_02

具体来说,为了使该框架在计算资源有限的现实场景中可用,作者提出几个经验设计,显著提高精确度和GPU内存效率。如图所示是M2BEV的流水线:给定时间戳T的N幅图像以及相应的内和外相机参数作为输入,编码器首先从多视图图像中提取2D特征,然后将2D特征反投影到3D 自车坐标系,以生成BEV特征表征。最后,采用特定任务头来预测3D目标和地图。

M2BEV:采用统一BEV表征的多摄像头联合3D检测分割_2d_03


如图是2D-3D反投影的细节:(a)/(b)显示了3D检测和BEV分割方面原始基准工作的显著性能改进,这意味着这些设计非常重要。(c) 演示M2BEV中高效的2D→3D特征反投影,其沿光线反投影3D体素中的2D特征。

M2BEV:采用统一BEV表征的多摄像头联合3D检测分割_2d_04


这里,假设沿光线的深度分布是均匀的,这意味着沿摄影头光线的所有体素都填充了和2D空间中单个像素对应相同的特征。这种统一的假设减少学习参数量,提高计算和存储效率。


给定4D张量体素V输入时,提出一种“空间到通道(S2C)”操作,将V从4D张量转换为3D张量,避免了3D CNN。


学习“FreeAnchor: Learning to match anchors for visual object detection“. NeurIPS, 2019,用于3-D检测,即动态边框分配策略。


推广中心度(Centerness)概念对正样本重加权,其定义为:

M2BEV:采用统一BEV表征的多摄像头联合3D检测分割_3d_05


如图是改进示意图:(a) 不同范围内的BEV中心度和IoU改善;(b) 2-D检测预训练。首先对2-D检测任务的模型进行预训练,然后将主干权重转移到3-D任务中;(c) 将自车空间的3D 真实框投影到2D图像空间,生成2D 真实框。

M2BEV:采用统一BEV表征的多摄像头联合3D检测分割_2d_06


训练损失函数定义如下:

M2BEV:采用统一BEV表征的多摄像头联合3D检测分割_2d_07

其中

M2BEV:采用统一BEV表征的多摄像头联合3D检测分割_3d_08

M2BEV:采用统一BEV表征的多摄像头联合3D检测分割_2d_09


M2BEV:采用统一BEV表征的多摄像头联合3D检测分割_自动驾驶_10



实验结果如下:

M2BEV:采用统一BEV表征的多摄像头联合3D检测分割_3d_11

M2BEV:采用统一BEV表征的多摄像头联合3D检测分割_自动驾驶_12

M2BEV:采用统一BEV表征的多摄像头联合3D检测分割_2d_13

M2BEV:采用统一BEV表征的多摄像头联合3D检测分割_3d_14


M2BEV:采用统一BEV表征的多摄像头联合3D检测分割_2d_15

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月08日 0

暂无评论

推荐阅读
rNykiPQ3Q0kH
最新推荐 更多