论文阅读:Cross Modal Transformer: Towards Fast and Robust 3D Object Detection
  acjkVgjDeGbH 2023年11月02日 42 0

Cross Modal Transformer: Towards Fast and Robust 3D Object Detection

ICCV 2023

在本文中,我们提出了 Cross-Modal Transformer (CMT),这是一种简单而有效的端到端管道,用于鲁棒的 3D 对象检测(见图 1(c))。首先,我们提出了坐标编码模块(CEM),它通过将 3D 点集隐式编码为多模态标记来生成位置感知特征。具体来说,对于相机图像,从视锥体空间采样的 3D 点用于指示每个像素的 3D 位置的概率。而对于 LiDAR,BEV 坐标只是简单地编码到点云标记中。接下来,我们介绍位置引导查询。每个查询都按照 PETR [26] 初始化为 3D 参考点。我们将参考点的 3D 坐标变换到图像和 LiDAR 空间,以在每个空间中执行相对坐标编码。

与现有方法相比,所提出的 CMT 框架具有许多优点。首先,我们的方法是一个简单的端到端管道,可以轻松扩展。 3D 位置被隐式编码到多模态特征中,这避免了引入显式跨视图特征对齐引起的偏差。其次,我们的方法仅包含基本操作,没有对多模态特征进行特征采样或复杂的 2D 到 3D 视图转换。它实现了最先进的性能,并且与现有方法相比显示出明显的优越性。第三,我们的CMT的鲁棒性比其他现有方法强得多。

极端的是,在 LiDAR 未命中的情况下,与那些基于视觉的 3D 物体检测器相比,我们仅使用图像标记的 CMT 可以实现相似的性能 [23,26]。

总而言之,我们的贡献是:

• 我们提出了一种快速且强大的 3D 检测器,这是一个真正的端到端框架,无需任何后处理。它克服了传感器丢失的问题。

• 3D 位置被编码到多模式标记中,无需任何复杂的操作,例如网格采样和体素池。

• CMT 在nuScenes 数据集上实现了最先进的3D 检测性能。它为未来的研究提供了一个简单的基线。

相关工作:

2.3.多模态 3D 物体检测

3D 检测中的多传感器融合近年来引起了广泛关注。最先进的(SoTA)方法倾向于为两种模态找到统一的表示,或者定义对象查询来融合特征以进行进一步的预测。例如,BEVFusion [24, 28] 应用 lift-splatshoot (LSS) 操作将图像特征投影到 BEV 空间上,并将其与 LiDAR 特征连接起来。 UVTR [20] 通过可变形注意力 [57] 在 3D 体素空间中生成统一的表示。而对于基于查询的方法,FUTR3D [8] 将 3D 参考点定义为查询,并直接从投影平面的坐标中对特征进行采样。 TransFusion [1] 采用两级管道。这些建议由 LiDAR 特征生成,并通过查询图像特征进一步细化。

论文阅读:Cross Modal Transformer: Towards Fast and Robust 3D Object Detection_点云

图 3. Cross-Modal Transformer (CMT) 范例的架构。多视图图像和点云被输入到两个骨干网络以提取特征标记。在坐标编码模块中,相机光线和BEV位置的坐标分别转换为图像位置编码(Im PE)和点云位置编码(PC PE)。查询由位置引导查询生成器生成。在查询生成器中,3D 锚点被投影到不同的模态,并且相对坐标被编码(参见右侧部分)。多模态令牌进一步与转换器解码器中的查询交互。更新后的查询进一步用于预测 3D 边界框。

3. 方法

所提出的 CMT 的总体架构如图 3 所示。多视图图像和 LiDAR 点被输入到两个单独的主干中以提取多模态标记。 3D 坐标通过坐标编码被编码为多模态标记。来自位置引导查询生成器的查询用于与 Transformer 解码器中的多模态标记交互,然后预测对象类以及 3D 边界框。整个框架以完全端到端的方式学习,LiDAR 主干从头开始训练,无需预训练。

3.1.坐标编码模块

坐标编码模块(CEM)用于将3D位置信息编码为多模态标记。它生成相机和 BEV 位置编码 (PE),分别添加到图像标记和点云标记中。在 CEM 的帮助下,多模态标记可以在 3D 空间中隐式对齐。

令 P(u; v) 为对应于不同模态的特征图 F(u; v) 的 3D 点集。这里(u;v)表示特征图中的坐标。具体来说,F 是相机的图像特征,而 BEV 是激光雷达的特征。

假设CEM的输出位置嵌入为Г(u; v),其计算公式为:

论文阅读:Cross Modal Transformer: Towards Fast and Robust 3D Object Detection_点云_02

其中φ 是多层感知(MLP)层。

图像 CE。由于图像是从透视图中捕获的,因此每个像素都可以看作 3D 空间中的一条极线。受 PETR [26] 的启发,对于每个图像,我们对相机视锥体空间中的一组点进行编码以执行坐标编码。给定图像特征 Fim,每个像素可以表示为一系列 相机视锥体坐标中的点 {pk(u; v) = (u * dk; v * dk; dk; 1)T ; k = 1, 2,...,d} 。这里,d是沿深度轴采样的点数。相应的3D点可以通过以下方式计算:

论文阅读:Cross Modal Transformer: Towards Fast and Robust 3D Object Detection_3D_03

其中T l ci 是第i个相机坐标到LiDAR坐标的变换矩阵。 Ki 是第i个相机的内在矩阵。图像像素(u;v)的位置编码公式为:

论文阅读:Cross Modal Transformer: Towards Fast and Robust 3D Object Detection_模态_04

点云CE。我们选择 VoxelNet [48, 55] 或 PointPillar [17] 作为主干来编码点云标记 Fpc。直观地说,方程1中的点集P可以沿Z轴采样。假设 (u; v) 为 BEV 特征图中的坐标,则采样点集为 pk(u; v) = (u; v; hk; 1)T ,其中 hk 表示第 k 个点的高度,h0 = 0 作为默认值。 BEV特征图对应的3D点可以通过以下公式计算:

论文阅读:Cross Modal Transformer: Towards Fast and Robust 3D Object Detection_模态_05

其中(ud; vd)是每个BEV的大小特征网格。为了简化,我们只沿高度轴采样一个点。相当于BEV空间中的2D坐标编码。

点云的位置嵌入可由下式获得:

论文阅读:Cross Modal Transformer: Towards Fast and Robust 3D Object Detection_3D_06

3.2.位置引导查询生成器

遵循 Anchor-DETR [46] 和 PETR [26],我们首先用 n 个锚点初始化查询 A = {ai = (ax,i; ay,i; az,i), i=1, 2,...,n} 从 [0,1] 之间的均匀分布中采样。然后这些锚点通过线性变换变换到3D世界空间:

论文阅读:Cross Modal Transformer: Towards Fast and Robust 3D Object Detection_3D_07

其中

论文阅读:Cross Modal Transformer: Towards Fast and Robust 3D Object Detection_3D_08

是 3D 世界空间的感兴趣区域 (RoI)。之后,我们将 3D 锚点 A 投影到不同的模态,并通过 CEM 对相应的点集进行编码。然后对象查询的位置嵌入 Γq 可以通过以下方式生成:

论文阅读:Cross Modal Transformer: Towards Fast and Robust 3D Object Detection_3D_09

其中 Apc 和 Aim 分别是投影在 BEV 平面和图像平面上的点集。位置嵌入 Гq 进一步与查询内容嵌入相加,以生成初始位置引导查询 Q0。

3.3.解码器和损失

对于解码器,我们遵循 DETR [46] 中的原始 Transformer 解码器并使用 L 个解码器层。对于每个解码器层,位置引导查询与多模式标记交互并更新其表示。两个前馈网络 (FFN) 用于使用更新的查询来预测 3D 边界框和类别。我们将每个解码器层的预测过程表述如下:

论文阅读:Cross Modal Transformer: Towards Fast and Robust 3D Object Detection_点云_10

其中Ψreg和Ψcls分别表示回归和分类的FFN。 Qi 是第 i 个解码器层的更新后的对象查询。

对于集合预测,二分匹配应用于预测和真实值之间的一对一分配。我们采用焦点损失进行分类,采用 L1 损失进行 3D 边界框回归:

论文阅读:Cross Modal Transformer: Towards Fast and Robust 3D Object Detection_3D_11

其中w1和w2是平衡两个损失项的超参数。请注意,对于查询去噪中的正查询和负查询,损失的计算方式相同。

3.4.鲁棒性的掩模模态训练

安全是自动驾驶系统最重要的问题。理想的系统需要可靠的性能,即使其中一部分出现故障,并且不依赖于任何特定模式的输入。最近,BEVFusion [24]探索了 LiDAR 传感器故障的鲁棒性。然而,探索仅限于有限的扫描范围,并且模型需要重新训练。在本文中,我们尝试了更多的极端故障,包括单摄像头缺失、摄像头缺失和激光雷达缺失,如图4所示。与实际场景一致,保证了自动驾驶的安全。

为了提高模型的鲁棒性,我们提出了一种训练策略,称为掩模模态训练。在训练过程中,我们随机使用单一模态进行训练,例如相机或激光雷达,其比例为 η1 和 η2。

该策略确保模型经过单模态和多模态的充分训练。那么模型可以是使用单模态或多模态进行测试,无需修改模型权重。实验结果表明,掩模模态训练不会影响我们的融合模型的性能。即使 LiDAR 损坏,与 SoTA 视觉 3D 探测器相比,它仍然可以达到类似的性能[15, 26](见表 3-4)。





【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月08日 0

暂无评论

推荐阅读
acjkVgjDeGbH