论文阅读：PolarNet: An Improved Grid Representation for Online LiDAR Point Clouds Semantic Segmentation-摩杜云开发者社区

PolarNet: An Improved Grid Representation for Online LiDAR Point Clouds Semantic Segmentation

Zhang 等人（2020c）

提出了一种新的激光雷达专用、无最近邻分割算法——PolarNet。我们的极地鸟瞰图表示不使用常见的球面或鸟瞰图投影，而是平衡极坐标系中网格单元上的点，间接将分割网络的注意力与沿着网格的点的长尾分布对齐。

通过将 2D 自顶向下图像作为输入，网络输出相同维度形状的张量，每个空间位置编码沿该位置 z 轴的每个体素的类预测。这种优雅的方法利用 2D CNN 多年的研究成果加速了分割过程。它还避免了昂贵的 3D 分割和 3D 图形操作

论文阅读：PolarNet: An Improved Grid Representation for Online LiDAR Point Clouds Semantic Segmentation_点云

我们的模型概述。对于给定的 LiDAR 点云，我们首先使用极 BEV 坐标将点量化为网格。对于每个网格单元，我们使用简化的无 KNN PointNet 将其中的点转换为固定长度的表示。然后将该表示分配到环形矩阵中的相应位置。我们将矩阵输入到环CNN，它由环卷积模块组成。最后，CNN 输出量化预测，我们将其解码到点域。

论文阅读：PolarNet: An Improved Grid Representation for Online LiDAR Point Clouds Semantic Segmentation_卷积_02

两种 BEV 量化策略。图像上的每个网格单元表示特征图中的一个特征。

BEV 的最初动机是用自上而下的图像来表示场景，以加速下游特定任务的 CNN。基于多年设计 CNN 架构的经验，研究人员选择 BEV 表示来与自然图像的外观非常相似，以便最大限度地利用下游 CNN，而这些 CNN 恰好是为自然图像设计的。因此，最初的 BEV 表示创建了点云的自上而下的投影。最近，初始 BEV 的变体尝试使用丰富的不同高度 [38]、反射 [28] 甚至学习表示 [16] 对 BEV 中的每个像素进行编码。然而，有一件事保持不变：BEV 方法使用笛卡尔网格划分，如图 3（a）所示。

网格是基本的图像表示，但它可能不是 BEV 的最佳表示。 BEV 是性能和精度之间的折衷方案。通过观察 BEV 图像，我们立即注意到密集集中在中间网格单元的点和外围网格单元完全是空的。不均匀分区不会不仅浪费计算能力，而且还限制了中心网格单元的特征代表性。此外，具有不同标签的点可能会分配给单个单元格。由于最终预测是在体素级别上的，因此次要点的预测将被输出中的大多数预测所抑制。

3.3. Polar 鸟瞰图

我们如何解决这种不平衡问题？基于 LiDAR 扫描自上而下视图中呈现的环形结构，我们提出了我们的极坐标划分，取代了图 3 中的笛卡尔划分。

我们不是量化笛卡尔坐标系中的点，而是首先计算以传感器位置为原点的 XY 平面上每个点的方位角和半径。

然后，我们根据量化的方位角和半径将点分配给网格单元。

我们发现 Polar BEV 的好处是双重的。首先，它更均匀地分配点。为了验证这一说法，我们计算了 SemanticKITTI 数据集 [1] 验证分割的统计数据。如图 4 所示，当单元靠近传感器时，每个极坐标网格单元的点数比笛卡尔 BEV 少得多。这表明密集占据的网格的表示更精细。相同网格单元数量下，传统纯电动网格单元平均点数为0:7±3:2，极地纯电动网格单元平均点数为0:7±1:4。标准差之间的差异表明，总体而言，这些点在极坐标 BEV 网格上分布更加均匀。

极坐标 BEV 的第二个好处是更平衡的点分布减轻了预测者的负担。

由于我们将 2D 网络输出重塑为体素预测以进行点预测，不可避免地，一些具有不同真实标签的点将被分配给相同的体素。其中一些无论如何都会被错误分类。对于笛卡尔 BEV，平均每个网格单元中 98.75% 的点共享相同的标签。在极地 BEV 中，这一数字跃升至 99.3%。这表明极坐标 BEV 中的点由于空间表示而较少受到错误分类的影响。考虑到小物体更有可能被体素中的大多数标签淹没，这 0.6% 的差异可能会对最终的 mIoU 产生更深远的影响。为了进一步研究 mIoU 上限，我们将每个点的预测设置为其指定体素的多数标签。事实证明，笛卡尔 BEV 在健全性检查中的 mIoU 达到了 97.3%。极地BEV达到98.5%。极地 BEV 的较高上限可能会提高下游模型的性能。

3.4.学习极坐标网格

我们不是任意手工制作每个网格的特征，而是使用固定长度的表示来捕获每个网格中点的分布。它是由可学习的简化 PointNet [22] h 和随后的最大池生成的。

该网络仅包含全连接层、batchnormalization 和 ReLu 层。 i 中的特征；扫描中的第 j 个网格单元为：

论文阅读：PolarNet: An Improved Grid Representation for Online LiDAR Point Clouds Semantic Segmentation_3D_03

其中 w 和 l 是量化大小。 px 和 py 是地图中点 p 的位置。请注意，位置和量化大小可以是极坐标或笛卡尔坐标。我们不沿 z 轴量化输入点云。与[16]类似，我们学习到的表示表示网格的整个垂直列。

如果在极坐标系中学习表示，则特征矩阵的两侧将沿着物理空间中的方位轴连接，如图2所示。

我们开发了一种离散卷积，我们将其称为环卷积。假设矩阵在半径轴的两端相连，环卷积核将对矩阵进行卷积。同时，位于另一侧的梯度可以通过这个环卷积核传播回另一侧。通过用二维网络中的环卷积替换普通卷积，网络将能够端到端地处理极坐标网格，而不会忽略其连通性。这为模型提供了扩展的感受野。由于它是一个 2D 神经网络，最终的预测也将是一个极坐标网格，其特征维度等于量化高度通道与类数的乘积。然后我们可以重塑对 4D 矩阵进行预测以得出基于体素的分割损失。

读者可能会注意到，如果用环卷积代替卷积，大多数 CNN 在技术上都能够处理极坐标网格。我们将带有环卷积的网络称为环 CNN，该网络经过训练可以处理极坐标网格