论文阅读:HybridCR: Weakly-Supervised 3D Point Cloud Semantic Segmentation via Hybrid Contrastive Regular
  acjkVgjDeGbH 2023年11月19日 22 0

HybridCR: Weakly-Supervised 3D Point Cloud Semantic Segmentation via Hybrid Contrastive Regularization

HybridCR:通过混合对比正则化进行弱监督的三维点云语义分割

摘要

为了解决大规模点云语义分割中巨大的标签成本,我们提出了一个新的混合对比正则化(HybridCR)框架,在弱监督环境下,与完全监督的同行相比,它获得了有竞争力的性能。具体来说,HybridCR是第一个以端到端方式利用点一致性和采用对比性正则化的框架。从根本上说,HybridCR明确而有效地考虑了局部邻接点和三维类的全球特征之间的语义相似性。我们进一步设计了一个动态点云增强器,以产生多样性和稳健的样本视图,其转换参数与模型训练共同优化。通过广泛的实验,HybridCR在室内和室外数据集(如S3DIS、ScanNet-V2、Semantic3D和SemanticKITTI)上与SOTA方法相比都取得了显著的性能改进。

1. 引言

学习大规模点云的精确语义是智能机器理解复杂三维场景的基本感知任务。现有的基于深度学习的方法在很大程度上依赖于标记的点云数据的可用性和数量进行训练[5,21,22,29]。然而,三维点的标注是费时和费力的。因此,我们的目标是探索弱监督学习,以最大限度地提高数据效率,减少对三维点云的标注工作。

最近,出现了几种三维点云弱监督语义分割方法,一般可以分为三类:(1)一致性正则化[33,38]采用随机修改输入或模型函数后的预测分布的一致性约束。(2) 伪标签,又称自我训练[4, 18, 37],使用模型预测作为监督。(3) 对比性预训练[9, 32]侧重于模型预训练,然后用较少的标签对下游任务进行微调。

尽管现有的方法已经取得了令人鼓舞的结果,但仍有一些局限性有待解决。首先,它们没有充分考虑邻域的语义属性和大规模场景下三维类的全局特征,未能充分利用有限但有价值的注释[33]。其次,许多管道[33, 38]使用固定/手工制作的数据增强来获得多视图表示,导致次优学习,因为增强的强度和类型在很大程度上取决于模型和数据集大小。此外,在固定增强中,样本的形状复杂性被忽略了。第三,现有的方法[9, 37]通常涉及多个阶段的预训练和微调,与端到端训练方案相比,这在实践中提高了训练和部署的难度。

为了解决上述缺陷,我们探索同时利用标签空间和特征空间的一致性和对比性。受最近的3D PSD[38]和2D FixMatch[27]的启发,我们在大规模点云的端到端训练方案中结合了伪标签和一致性正则化策略。为了更好地利用对比性信息,我们重新设计了锚点的正对和负对。此外,在分类任务中的PointAugment[15]的激励下,我们进一步引入动态点云增强器,为一致性和对比性正则化提供转换,并进行联合优化。

为了实现上述想法,我们提出了一种新的范式,称为混合对比正则化(HybridCR),用于大规模点云上的弱监督语义分割,它由局部和全局指导对比学习以及动态点云变换组成。如图1所示,局部引导对比正则化迫使不同视图的数据样本靠近它们的邻居而远离其他点。对于全局指导对比正则化,每个样本都被要求接近其类别的原型,并远离不同类别的原型。从根本上说,HybridCR明确而有效地考虑了本地邻接点之间的语义相似性和三维点云类别的全球特征。此外,提出的动态点云增强器使用多层感知器(MLPs)和高斯噪声来丰富上下文位移的数据多样性,其中增强器的参数可以与模型训练共同优化。广泛的实验表明,HybridCR在室内场景,即S3DIS[1]和ScanNet-V2[6],以及室外场景,即Semantic3D[8]和SemanticKITTI[2],都实现了SOTA性能,证明了我们提出的框架的有效性。

总而言之,我们的贡献有四个方面:

- 我们提出了第一个框架HybridCR,以端到端方式利用点一致性和对比性属性进行弱监督点云语义分割。

- 我们引入了局部和全局指导的对比性正则化,以促进高水平的三维语义场景理解任务。

- 我们设计了一个新的动态点云增强器来转换多样化和稳健的样本视图,它与整个训练过程共同优化。

- 与最近的弱监督方法相比,HybridCR取得了显著的性能,在室内和室外数据集中分别获得2.4%和1.0%的AP改进。

2. 相关工作

2.1. 弱监督下的点云分割

弱监督下的学习是减少高劳动成本的有效途径。一些弱标记方法已经做了初步尝试,如标记极小部分的点[18, 33, 38]或语义类别[31]。现有的方法使用各种手段来提高模型的表达能力。它们可以大致分为三类。

一致性正则化在弱监督的图像分类中实现了透视性能[28, 36, 40]。Xu等人[33]介绍了一种针对点云特征的多分支监督方法,其中采用了两种类型的点云增强和一致性正则化。Zhang等人[38]通过扰动自振来提供额外的监督,用于隐性信息传播。Shi等人[26]研究了标签有效的学习,并引入了基于超点的主动学习策略。尽管受益于不同网络分支的一致性,他们没有考虑特征空间的对比性。

伪标签从训练好的模型[14, 24]的预测中创建监督,由邻域图[11]分配,或自我训练[19, 35]。在弱监督的设置中。Zhang等人[37]提出了一种基于转移学习的方法,并引入了稀疏的伪标签来规范网络学习。Hu等人[18]提出一个自训练策略,利用伪标签来提高网络性能。Cheng等人[4]利用一个动态标签传播方案来生成基于所建超点图的伪标签。然而,他们只利用伪标签来获得更多的监督信号,而忽略了标签空间的一致性属性。

对比性预训练首先由Xie等人提出[32],并通过提出一个针对点云场景的对比性学习框架开始了努力。然而,它主要集中在有100%标签的下游任务上。Hou等人[9]利用场景的固有属性来扩展网络的可转移性。Li等人[12]提出了引导性的点对比损失,并利用伪标签来学习鉴别性的特征。然而,他们只在特征空间进行点级对比,而忽略了点云的固有属性,即几何结构和类语义。

HybridCR重新设计了大规模点云的局部和全局正负对,并充分探索了如何利用并同时以端到端的方式执行一致性和对比性属性。

2.2. 点云增强

现有网络中的数据增强[33, 38]主要包括随机旋转、缩放和抖动,这些都是在整个训练过程中手工制作/固定的。Li等人[15]通过利用对抗性学习策略提出了一个自动增强框架。Chen等人[3]通过实例之间的插值提出。Kim等人[13]利用局部加权变换来产生非刚性的变形。然而,他们只关注对象层面的点云。此外,在实际应用中实现它们是很复杂的,这给在训练中调整参数带来了困难,而且只关注对象级的点云。我们引入了一个动态点云增强器,在训练过程中为大规模的点云产生不同的变换。

3. 方法

在这一部分中,我们首先描述了3.1节中的符号和预设。然后,我们在第3.2节中介绍了HybridCR的总体框架,该框架具有局部和全局指导的对比性正则化。接下来,我们在第3.3节中介绍了动态点云增强器。最后,我们在第3.4节中提出了训练的总体目标。

3.1. 前言

问题设置和符号。我们让D是点云数据集,定义为

论文阅读:HybridCR: Weakly-Supervised 3D Point Cloud Semantic Segmentation via Hybrid Contrastive Regular_数据集

,其中N表示点的总数,M是标记点的数量,Xl和Xu是标记点和未标记点的集合。对于Xu,标签是缺失的,经常被即时生成的伪标签Y p取代。因此,Y = Y l ∪ Y p是弱监督语义分割的整个标签集。请注意,Y l是固定的,但Y p在训练期间会被更新。从形式上看,给定一个具有极小部分标签的大规模点云作为输入,弱监督语义分割的目的是学习函数:

论文阅读:HybridCR: Weakly-Supervised 3D Point Cloud Semantic Segmentation via Hybrid Contrastive Regular_点云_02

。具体来说,对于1%的设定,标注点的数量为M=1%×N,所有标注点都是随机选择的。1pt代表每个类只有一个点被标记为基础真理,所以标记点的数量M等于类的数量C,注意所有的标记点是随机选择的。

点级一致性和对比度。点级一致性[33,38]已被广泛用于弱监督的点云语义分割,它强制要求不同增量的对应点对在连体网络中具有相同的特征表示。形式上,点级一致性损失被表述为:

论文阅读:HybridCR: Weakly-Supervised 3D Point Cloud Semantic Segmentation via Hybrid Contrastive Regular_正则化_03

其中||两侧分别是第i个点通过原始分支和数据增强分支的预测概率。JS是JensenShannon分歧。自监督学习中的点级对比[32]是由监督的密集预测任务推动的,例如,语义分割,它执行密集的每点分类。

点级对比的目的是把锚点(点xi)拉到数据增强点,同时把它从预测空间的其他点推开。因此,点级对比损失被表述为:

论文阅读:HybridCR: Weakly-Supervised 3D Point Cloud Semantic Segmentation via Hybrid Contrastive Regular_正则化_04

其中

论文阅读:HybridCR: Weakly-Supervised 3D Point Cloud Semantic Segmentation via Hybrid Contrastive Regular_点云_05

是一个指标函数,如果符合条件,则评价为1,τ是一个温度超参数。注意,公式1和公式2是在所有点上计算的。

伪标签的生成和选择。伪标签[14]使用模型的类别预测作为监督来再次训练,并受益于流行的二维Fixmatch[27]。它通过地面真实标签Y l和生成的伪标签Y p来估计所有点的概率。假设pi是参数为θ的网络对点xi的概率输出,pic代表c类出现在xi的概率。利用这些输出概率,生成xi的伪标签。生成后,通过获得一个二进制矢量gi来选择具有高置信度预测的伪标签。让

论文阅读:HybridCR: Weakly-Supervised 3D Point Cloud Semantic Segmentation via Hybrid Contrastive Regular_数据集_06

为被选择的伪标签,其获得方式为:

论文阅读:HybridCR: Weakly-Supervised 3D Point Cloud Semantic Segmentation via Hybrid Contrastive Regular_数据集_07

当概率分数足够高时,标签被选中。

高级别的语义场景理解任务不仅需要局部信息,还需要全局信息,仅仅在点的层面上直接对比三维实例是不够的[17, 32]。因此,这促使我们探索更有效的对比策略,以充分利用点云在几何结构和类语义方面的固有特性。

3.2. 混合对比正则化

如图2所示,我们为大规模的点云提出了一个紧凑的弱监督语义分割框架,该框架包含新颖的混合对比正则化策略(HybridCR)和有效的动态点云增强器。原始点云首先被送入动态点云增强器以产生不同的变换。然后,原始输入点和增强的点通过连体网络,利用模型对未标记点的预测生成伪标签。在训练过程中,鼓励模型通过匹配具有不同变换的三维点对来学习相似和稳健的特征。同时,生成的伪标签被用来计算每个类别的原型。最后,HybridCR在局部和全局引导的角度上进行,以学习未标注点和标注点之间的特征关系,这也利用了传统的标注点的分割损失与点级一致性和对比度损失。

3.2.1 局部引导对比正则化

本地邻居信息对于点云物体的特征学习至关重要。例如,室内和室外场景中的物体总是存在遮挡和孔洞。如果模型从其他完整的物体中学习局部结构信息(球体、角等),就可以在训练中提高模型对不完整物体的鲁棒性。而点云的局部特征主要来自于点和它们的邻居,这启发我们通过所提出的局部引导对比正则化对点云的局部信息进行建模。为了达到这个目的,我们首先查询锚点的邻接点,然后强制每个点的不同增强视图靠近其邻接点并远离其他点。

给定一个三维查询点xi及其坐标xyz,我们通过点对点的欧氏距离搜索其最近的K个邻居点,它们的编码特征向量被聚集起来,生成一个平均向量κi,其计算公式为|N(1 xi)| P j∈N(xi) yj。在此基础上,我们按照InfoNCE[20]构建了局部引导对比损失Llcl,将y˜i拉近κi,同时将其推离其他点的邻居向量:

论文阅读:HybridCR: Weakly-Supervised 3D Point Cloud Semantic Segmentation via Hybrid Contrastive Regular_正则化_08

事实上,所提出的局部引导对比性损失是对公式2的更多概括。

3.2.2 全局引导对比正则化

全局信息对于点云物体和场景识别至关重要,来自同一类别的物体应该具有相似的语义特征,即使它们在外观上有很大的差异。相反,属于不同类别的物体在特征空间中应该是可以区分的,无论它们看起来多么相似。例如,椅子和桌子在外观上相似,但属于不同的类别。因此,网络有必要获得关键信息以避免这种陷阱。为了解决这个问题,我们通过提议的全局指导对比正则化,利用了来自类标签的语义信息。为了达到这个目的,我们采取标签点的平均嵌入来生成每个类的原型ρ,ρic是属于c类的第i个点的原型。据此,我们通过将y˜i拉近ρi,同时将其推远到其余类的原型,构建全局指导对比损失Lgcl:

论文阅读:HybridCR: Weakly-Supervised 3D Point Cloud Semantic Segmentation via Hybrid Contrastive Regular_数据集_09

其中Ml=M+Mp,Mp是所选伪标签的数量(在公式3中定义),c′是与c类不同的类。 因此,负样本来自C-1类的原型,除了第c类。请注意,如果数据集有C类,这基本上等同于C - 1的负数大小。在处理有大量类的数据集时,这一点实际上是很重要的。因此,Lgcl可以保留公式2中Lcra的特征学习属性,并解决内存瓶颈问题。

3.3. 动态点云增强器

数据增强是所提出的HybridCR中的一个重要组成部分,它通过在输入中加入特殊的噪声来产生不同的锚点、正反例,并提取不变的表示。受[15]的启发,我们使用MLP和高斯噪声来实现可学习的动态点云增强器,它丰富了上下文位移的数据多样性,并在同一场景中产生不同的变换。

图3展示了拟议的增强器架构。首先,我们使用共享的4层MLPs,其渐进维度为[64, 128, 1024, 512],提取F∈R N×d。然后,两个独立的线性投影层计算H和G。我们使用架构中的两个独立组件对特定于输入样本D的增强函数进行回归:(1)全局明智回归,产生变换M∈R N×N,(2)上下文明智回归,产生位移S∈R N×3。特别是,我们引入了两个基于高斯分布的d维噪声向量,并将它们与H和G相连接。然后,我们采用MLPs来获得M和S。请注意,噪声向量使增强器在回归变换矩阵时能够探索更多样化的选择。使用M和S,我们生成增强的样本D′=D-M+S。拟议的动态点云增强器比[33,38]中采用的传统增强器更灵活,在训练过程中联合优化。

3.4. 总体目标。

如上所述,HybridCR可以作为端到端训练方案中弱监督点云语义分割框架的有效对比正则化策略。网络的总体目标被表述为:

论文阅读:HybridCR: Weakly-Supervised 3D Point Cloud Semantic Segmentation via Hybrid Contrastive Regular_点云_10

其中λ是一个平衡参数。Lseg是基于交叉熵的对标记点的分割损失,其表述为:

论文阅读:HybridCR: Weakly-Supervised 3D Point Cloud Semantic Segmentation via Hybrid Contrastive Regular_数据集_11

其中yic表示点xi的地面真实标签。我们还将公式7应用于增强数据,以学习网络参数θ。我们通过Adam优化器解决公式6。此外,当扩展到完全监督的方式时,HybridCR可以作为一个有效的辅助特征学习损失。

4. 实验

4.1. 实验设置

实验数据集包含S3DIS[1]、ScanNetV2[6]、Semantic3D[8]和SemanticKITTI[2]。S3DIS是一个常用的用于语义分割的室内三维点云数据集。它有6个地区的271个点云场景,有13个类别。ScanNet-V2也是一个室内三维点云数据集,它包含1,613个三维扫描,总共有20个类别。整个数据被分成一个训练集(1201个扫描)、一个验证集(312个扫描)和一个测试集(100个扫描)。Semantic3D是一个户外数据集,它提供了一个拥有超过40亿个点的大规模标记的三维点云。它涵盖了一系列不同的城市场景,原始3D点有8个类别,具有多种信息,如3D坐标、RGB信息和强度。SemanticKITTI是一个大规模的户外点云数据集,用于自主驾驶场景下的3D语义分割,有19个类别。该数据集包含22个序列,分为训练集(10个序列,包含∼19k帧)、验证集(1个序列,包含∼4k帧)和测试集(11个序列,包含∼20k帧)。

实施细节。我们使用Adam优化器,初始学习率为0.001,动量为0.9,在NVIDIA RTX Titan GPU上为所有数据集训练100个epochs。邻近点K的数量为16,批次大小为6,初始学习率为0.01,衰减率为0.98,每个epoch的迭代步骤被设置为500。注意,我们选择基于点的骨干PSD[38]作为我们的基线,因为它的有效性和效率。

评估协议。我们在原始测试集的所有点上评估最终性能。为了进行定量比较,我们使用平均相交度(mIoU)作为标准度量。我们在实验中研究了两种类型的弱标签。1pt和1%的设置。此外,我们将HybridCR扩展到完全监督的方式。

4.2. 与SOTA方法的比较

S3DIS和ScanNet-V2的定量结果。首先,我们将HybridCR与SOTA方法在S3DIS-5区进行比较,其定量结果总结在表1。1. 显然,与Zhang等人[37]、PSD[38]、Π模型[25]、MT[28]、Xu等人[33]和RandLA-Net[10]相比,在1pt和1%的设置下,提出的HybridCR实现了最高的mIoU。例如,在1pt(0.03%)的设定下,我们的方法比PSD和RandLA-Net分别高出3.3%和10.8%。此外,我们的方法也比Xu等人[33]取得了7.0%的性能提升,后者利用了更多的标注点,约为0.2%。在特定类别方面,在1pt(0.03%)的设置下,我们的方法明显提高了性能,在 "椅子"、"桌子 "和 "沙发 "方面分别比PSD提高了8.7%、16.4%和8.9%。

对于1%的设置,我们的方法比PSD基线实现了1.8%的mIoU收益,甚至超过了Xu等人通过添加所提出的hydrid contrastive regularization从大规模点云数据中获得的多样几何结构。在此基础上,我们的方法只使用1%的点来超越完全监督的RandLA-Net和PSD。为了进行公平的比较,我们还在S3DIS上扩大了与其他方法的比较,在6倍的设置下,其结果见表2。2. 对于ScanNet-V2,与WyPR[23]和MPRM[31]相比,在测试集的1%设置下,HybridCR实现了最高的mIoU,达到56.8%。同时,HybridCR在相同数量的标签注释下,比Zhang等人获得了5.7%的mIoU收益。此外,在完全监督的情况下,我们的方法比RandLA-Net实现了2.1%的mIoU收益。

S3DIS和ScanNet-V2的定性结果。我们在图4和图5中分别展示了S3DIS和ScanNet-V2的定性结果。在S3DIS上,与PSD相比,HybridCR在 "板 "和 "椅 "上取得了更好的分割效果。此外,HybridCR的分割结果与地面实况非常一致。在ScanNet-V2上,我们观察到HybridCR取得了良好和真实的分割结果。在ScanNet-V2上,与PSD相比,HybridCR在 "沙发 "和 "桌子 "上取得了良好的性能。原因可能是HybridCR可以有效地利用动态点云增强器产生的各种变换来提高表示能力和促进分割性能。

Semantic3D和SemanticKITTI的定量结果。我们在室外大规模点云数据集Semantic3D(减8)和SemanticKITTI上进一步评估HybridCR,并在表2中分别列出结果。2中分别介绍了结果。对于Semantic3D,与Zhang等人[37]和PSD相比,我们的方法也取得了更好的性能,在1%的设定下,分别提高了4.2%和1.0%的mIoU。对于SemanticKITTI,我们的方法在设置为1%时,在验证和测试数据集上报告的结果是51.9%和52.3%。可以看出,在注释有限的情况下,我们的方法以很大的幅度超过了其他基于点的方法。

Semantic3D和SemanticKITTI的定性结果。我们在图6和图7中分别给出了Semantic3D和SemanticKITTI的定性结果。在Semantic3D上,我们的方法比PSD有所改进,特别是实现了对 "建筑物 "的精确分割。在SemanticKITTI上,可以看到我们的方法取得了与地面实况一致的分割结果,特别是在 "道路 "和 "汽车 "上,这两个地方在自动驾驶应用中对稀疏的室外场景是难以区分的。这些结果证明了我们的方法在户外数据集上的有效性。

完全监督设置的结果。我们在室内和室外数据集上进一步扩大了与当前SOTA方法的比较,其定量结果总结在表2。2. 例如,HybridCR超过了RandLA-Net,在S3DIS和ScanNet-V2上分别提高了0.7%和2.1%的mIoU,并在SemanticKITTI上获得了0.1%的mIoU。此外,HybridCR在Semantic3D上比KPConv的mIoU高出1.8%。

4.3. 消融研究

我们进一步评估了消融研究的基本组件的有效性,包括动态点云增强器和局部/全局引导对比正则化。所有的实验都是在S3DIS Area-5上进行的,结果见表。3. 请注意,1号是按PSD报告的,8号是按HybridCR报告的,我们用平均值和std.dev.报告结果(5次运行)。

动态数据增强器的有效性。为了验证数据增强所带来的改进,我们将Base.与Aug.进行比较。比较#1和#2在1pt和1%的设置下,分别比Base.取得了2.5%和1.0%的收益。对于#5和#8,在1pt和1%的设置下,它比HybridCR分别实现了0.4%和0.3%的收益。结果表明,HybridCR从具有多样化变换的Aug.中获得了很多好处。

本地指导对比损失的有效性。从#1和#3在1pt和1%设置下的比较来看,它在mIoU上分别比Base.优胜1.6%和0.4%。对于#7和#8,它比HybridCR分别获得0.5%和0.2%的改进。这些结果表明,Local.进一步提高了性能,因为它在模型训练期间利用了邻近的信息,同时加强了特征学习。

全局指导对比性损失的效果。同样,从#1和#4的比较来看,在1pt和1%的设置下,它分别比Base.高出2.0%和0.5%。对于#6和#8,它比HybridCR分别取得了1.3%和0.6%的收益。这些结果表明,Global.有效地提高了有类原型的弱监督语义分割任务的性能。

4.4. 分析

点嵌入的可视化。如图8(a)和(b)所示,与PSD相比,HybridCR的学习点嵌入变得更加紧凑和独立。这表明分割网络通过享受局部和全局引导对比损失的优势以及动态点云增强器产生的有效转换,产生了更多的鉴别性特征,并产生了有希望的结果。

标记的点和性能。我们在图8(c)中进一步讨论了性能与标签比率{1pt, 0.1%, 1%, 10%, 50%, 100%}之间的关系。随着比率的增加,两种方法的性能都得到了提高,而且增长趋势逐渐放缓。请注意,当比率小于1%时,性能略有下降,这表明保持一定量的监督信号是必要的。此外,在比率为10%时,性能接近100%,这表明密集的注释对于获得良好的分割结果是不必要的。

5. 结论

在本文中,我们提出了一个用于弱监督的大规模点云语义分割的混合对比正则化框架。通过我们提出的局部和全局指导对比正则化,网络通过利用邻近的点和伪标签来学习更多的判别特征。同时,我们提出了一个动态的点云增强器,在训练过程中联合优化,使对比性策略受益于更多样化的转换。在室内和室外数据集上的大量实验结果表明,与SOTA方法相比,HybridCR取得了明显的收益。此外,引入的关键组件的有效性通过消融研究得到了验证。实验结果进一步证明了我们的方法在利用有限标记的大规模点云和提高模型泛化能力方面的有效性。


【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月19日 0

暂无评论

推荐阅读
acjkVgjDeGbH