M2BEV：采用统一BEV表征的多摄像头联合3D检测分割-摩杜云开发者社区

作者丨黄浴

arXiv2022年4月上传论文“M2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified Bird’s-Eye View Representation“，作者来自多所大学和公司，包括香港大学、新加坡国立、英伟达、多伦多大学、Vector研究院（多伦多）和加州理工。

M2BEV：采用统一BEV表征的多摄像头联合3D检测分割_3d

本文提出M2BEV，一个多摄像机图像输入、在BEV空间中联合执行3-D目标检测和地图分割的统一框架。与以往大多数分别处理检测和分割的工作不同，M2BEV使用统一的模型推断这两个任务，并提高了效率。M2BEV将多视图2D图像特征有效地转换为汽车坐标系下的3D BEV特征。这种BEV表征非常重要，可以让不同的任务共享一个编码器。该框架包含四个重要的设计，对准确性和效率都有好处：（1）有效的BEV编码器设计，减少了体素特征图的空间维度。（2）一种动态框分配策略，用学习-匹配（learning-to-match）来分配带有锚点的真实3D框。（3） BEV中心重加权，更大的权重对较远距离的预测强化；（4）大规模2D检测预训练和辅助监督。M2BEV的内存效率很高，以更高分辨率图像作为输入，推理速度更快。在nuScenes数据的实验表明，M2 BEV在3D目标检测和BEV分割方面都达到了最好效果，最佳单一模型分别达到42.5 mAP和57.0 mIoU。

项目网页：https://xieenze.github.io/projects/m2bev/

现有基于摄像头的方法不适用于360度多任务自动驾驶感知。三种主流基于摄像头的方法包括：（1）单目3D目标检测方法，例如CenterNet和FCOS3D，分别预测每个视图中的3D边框。需要额外的后处理步骤来融合不同视图的预测，并删除冗余的边框。这些步骤通常不可靠，也不可区分，不适合与下游规划任务进行端到端联合推理。（2）基于伪激光雷达的方法，例如pseudo- LIDAR。这些方法可以重建具有预测深度的3-D体素，但对深度估计中的错误非常敏感，通常需要额外的深度标注和训练的监督。（3）基于Transformer的方法。最近，DETR3D使用了一个transformer框架，将3D目标查询投影到多视图2D图像，并以自上而下（top-down）的方式与图像特征交互。尽管DETR3D支持多视图3D检测，但它不支持BEV分割和多任务处理，因为它只考虑目标查询，而没有致密的BEV表征。

如图就表明了两种不同的方法：上图是传统的任务特定的流水线，而下图是M2BEV方法。

M2BEV：采用统一BEV表征的多摄像头联合3D检测分割_3d_02

具体来说，为了使该框架在计算资源有限的现实场景中可用，作者提出几个经验设计，显著提高精确度和GPU内存效率。如图所示是M2BEV的流水线：给定时间戳T的N幅图像以及相应的内和外相机参数作为输入，编码器首先从多视图图像中提取2D特征，然后将2D特征反投影到3D 自车坐标系，以生成BEV特征表征。最后，采用特定任务头来预测3D目标和地图。

M2BEV：采用统一BEV表征的多摄像头联合3D检测分割_2d_03