论文阅读：Cross Modal Transformer: Towards Fast and Robust 3D Object Detection-摩杜云开发者社区

Cross Modal Transformer: Towards Fast and Robust 3D Object Detection

ICCV 2023

在本文中，我们提出了 Cross-Modal Transformer (CMT)，这是一种简单而有效的端到端管道，用于鲁棒的 3D 对象检测（见图 1(c)）。首先，我们提出了坐标编码模块（CEM），它通过将 3D 点集隐式编码为多模态标记来生成位置感知特征。具体来说，对于相机图像，从视锥体空间采样的 3D 点用于指示每个像素的 3D 位置的概率。而对于 LiDAR，BEV 坐标只是简单地编码到点云标记中。接下来，我们介绍位置引导查询。每个查询都按照 PETR [26] 初始化为 3D 参考点。我们将参考点的 3D 坐标变换到图像和 LiDAR 空间，以在每个空间中执行相对坐标编码。

与现有方法相比，所提出的 CMT 框架具有许多优点。首先，我们的方法是一个简单的端到端管道，可以轻松扩展。 3D 位置被隐式编码到多模态特征中，这避免了引入显式跨视图特征对齐引起的偏差。其次，我们的方法仅包含基本操作，没有对多模态特征进行特征采样或复杂的 2D 到 3D 视图转换。它实现了最先进的性能，并且与现有方法相比显示出明显的优越性。第三，我们的CMT的鲁棒性比其他现有方法强得多。

极端的是，在 LiDAR 未命中的情况下，与那些基于视觉的 3D 物体检测器相比，我们仅使用图像标记的 CMT 可以实现相似的性能 [23,26]。

总而言之，我们的贡献是：

• 我们提出了一种快速且强大的 3D 检测器，这是一个真正的端到端框架，无需任何后处理。它克服了传感器丢失的问题。

• 3D 位置被编码到多模式标记中，无需任何复杂的操作，例如网格采样和体素池。

• CMT 在nuScenes 数据集上实现了最先进的3D 检测性能。它为未来的研究提供了一个简单的基线。

相关工作:

2.3.多模态 3D 物体检测

3D 检测中的多传感器融合近年来引起了广泛关注。最先进的（SoTA）方法倾向于为两种模态找到统一的表示，或者定义对象查询来融合特征以进行进一步的预测。例如，BEVFusion [24, 28] 应用 lift-splatshoot (LSS) 操作将图像特征投影到 BEV 空间上，并将其与 LiDAR 特征连接起来。 UVTR [20] 通过可变形注意力 [57] 在 3D 体素空间中生成统一的表示。而对于基于查询的方法，FUTR3D [8] 将 3D 参考点定义为查询，并直接从投影平面的坐标中对特征进行采样。 TransFusion [1] 采用两级管道。这些建议由 LiDAR 特征生成，并通过查询图像特征进一步细化。

论文阅读：Cross Modal Transformer: Towards Fast and Robust 3D Object Detection_点云

图 3. Cross-Modal Transformer (CMT) 范例的架构。多视图图像和点云被输入到两个骨干网络以提取特征标记。在坐标编码模块中，相机光线和BEV位置的坐标分别转换为图像位置编码（Im PE）和点云位置编码（PC PE）。查询由位置引导查询生成器生成。在查询生成器中，3D 锚点被投影到不同的模态，并且相对坐标被编码（参见右侧部分）。多模态令牌进一步与转换器解码器中的查询交互。更新后的查询进一步用于预测 3D 边界框。

3. 方法

所提出的 CMT 的总体架构如图 3 所示。多视图图像和 LiDAR 点被输入到两个单独的主干中以提取多模态标记。 3D 坐标通过坐标编码被编码为多模态标记。来自位置引导查询生成器的查询用于与 Transformer 解码器中的多模态标记交互，然后预测对象类以及 3D 边界框。整个框架以完全端到端的方式学习，LiDAR 主干从头开始训练，无需预训练。

3.1.坐标编码模块

坐标编码模块（CEM）用于将3D位置信息编码为多模态标记。它生成相机和 BEV 位置编码 (PE)，分别添加到图像标记和点云标记中。在 CEM 的帮助下，多模态标记可以在 3D 空间中隐式对齐。

令 P(u; v) 为对应于不同模态的特征图 F(u; v) 的 3D 点集。这里(u;v)表示特征图中的坐标。具体来说，F 是相机的图像特征，而 BEV 是激光雷达的特征。

假设CEM的输出位置嵌入为Г(u; v)，其计算公式为：

论文阅读：Cross Modal Transformer: Towards Fast and Robust 3D Object Detection_点云_02

其中φ 是多层感知（MLP）层。

图像 CE。由于图像是从透视图中捕获的，因此每个像素都可以看作 3D 空间中的一条极线。受 PETR [26] 的启发，对于每个图像，我们对相机视锥体空间中的一组点进行编码以执行坐标编码。给定图像特征 Fim，每个像素可以表示为一系列相机视锥体坐标中的点 {pk(u; v) = (u * dk; v * dk; dk; 1)T ; k = 1, 2,...,d} 。这里，d是沿深度轴采样的点数。相应的3D点可以通过以下方式计算：

论文阅读：Cross Modal Transformer: Towards Fast and Robust 3D Object Detection_3D_03

其中T l ci 是第i个相机坐标到LiDAR坐标的变换矩阵。 Ki 是第i个相机的内在矩阵。图像像素（u；v）的位置编码公式为：

论文阅读：Cross Modal Transformer: Towards Fast and Robust 3D Object Detection_模态_04

点云CE。我们选择 VoxelNet [48, 55] 或 PointPillar [17] 作为主干来编码点云标记 Fpc。直观地说，方程1中的点集P可以沿Z轴采样。假设 (u; v) 为 BEV 特征图中的坐标，则采样点集为 pk(u; v) = (u; v; hk; 1)T ，其中 hk 表示第 k 个点的高度，h0 = 0 作为默认值。 BEV特征图对应的3D点可以通过以下公式计算：

论文阅读：Cross Modal Transformer: Towards Fast and Robust 3D Object Detection_模态_05

其中(ud; vd)是每个BEV的大小特征网格。为了简化，我们只沿高度轴采样一个点。相当于BEV空间中的2D坐标编码。

点云的位置嵌入可由下式获得：

论文阅读：Cross Modal Transformer: Towards Fast and Robust 3D Object Detection_3D_06

3.2.位置引导查询生成器

遵循 Anchor-DETR [46] 和 PETR [26]，我们首先用 n 个锚点初始化查询 A = {ai = (ax,i; ay,i; az,i), i=1, 2,...,n} 从 [0,1] 之间的均匀分布中采样。然后这些锚点通过线性变换变换到3D世界空间：

论文阅读：Cross Modal Transformer: Towards Fast and Robust 3D Object Detection_3D_07

其中

论文阅读：Cross Modal Transformer: Towards Fast and Robust 3D Object Detection_3D_08

是 3D 世界空间的感兴趣区域 (RoI)。之后，我们将 3D 锚点 A 投影到不同的模态，并通过 CEM 对相应的点集进行编码。然后对象查询的位置嵌入 Γq 可以通过以下方式生成：

论文阅读：Cross Modal Transformer: Towards Fast and Robust 3D Object Detection_3D_09

其中 Apc 和 Aim 分别是投影在 BEV 平面和图像平面上的点集。位置嵌入 Гq 进一步与查询内容嵌入相加，以生成初始位置引导查询 Q0。

3.3.解码器和损失

对于解码器，我们遵循 DETR [46] 中的原始 Transformer 解码器并使用 L 个解码器层。对于每个解码器层，位置引导查询与多模式标记交互并更新其表示。两个前馈网络 (FFN) 用于使用更新的查询来预测 3D 边界框和类别。我们将每个解码器层的预测过程表述如下：

论文阅读：Cross Modal Transformer: Towards Fast and Robust 3D Object Detection_点云_10

其中Ψreg和Ψcls分别表示回归和分类的FFN。 Qi 是第 i 个解码器层的更新后的对象查询。

对于集合预测，二分匹配应用于预测和真实值之间的一对一分配。我们采用焦点损失进行分类，采用 L1 损失进行 3D 边界框回归：

论文阅读：Cross Modal Transformer: Towards Fast and Robust 3D Object Detection_3D_11

其中w1和w2是平衡两个损失项的超参数。请注意，对于查询去噪中的正查询和负查询，损失的计算方式相同。

3.4.鲁棒性的掩模模态训练

安全是自动驾驶系统最重要的问题。理想的系统需要可靠的性能，即使其中一部分出现故障，并且不依赖于任何特定模式的输入。最近，BEVFusion [24]探索了 LiDAR 传感器故障的鲁棒性。然而，探索仅限于有限的扫描范围，并且模型需要重新训练。在本文中，我们尝试了更多的极端故障，包括单摄像头缺失、摄像头缺失和激光雷达缺失，如图4所示。与实际场景一致，保证了自动驾驶的安全。

为了提高模型的鲁棒性，我们提出了一种训练策略，称为掩模模态训练。在训练过程中，我们随机使用单一模态进行训练，例如相机或激光雷达，其比例为 η1 和 η2。

该策略确保模型经过单模态和多模态的充分训练。那么模型可以是使用单模态或多模态进行测试，无需修改模型权重。实验结果表明，掩模模态训练不会影响我们的融合模型的性能。即使 LiDAR 损坏，与 SoTA 视觉 3D 探测器相比，它仍然可以达到类似的性能[15, 26]（见表 3-4）。