论文阅读:Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud S
  acjkVgjDeGbH 2023年11月24日 17 0

Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud Segmentation

利用大规模预训练视觉基础模型进行标签高效的 3D 点云分割

Paper link:   https://arxiv.org/pdf/2311.01989.pdf

摘要:最近,分段任意模型(SAM)和对比语言图像预训练(CLIP)等大规模预训练模型取得了显着的成功,彻底改变了计算机视觉领域。这些基础视觉模型利用其庞大的模型参数,有效地从大规模广泛的数据中捕获知识,使它们能够对以前未见过的数据执行零样本分割,而无需额外的训练。虽然它们展示了 2D 任务的能力,但它们增强 3D 场景理解的潜力仍然相对未被开发。为此,我们提出了一个新颖的框架,该框架适用于 3D 点云分割任务的各种基础模型。我们的方法涉及使用不同的大视觉模型对 2D 语义掩模进行初始预测。然后,我们将这些掩模预测从 RGB-D 视频序列的各个帧投影到 3D 空间中。为了生成鲁棒的 3D 语义伪标签,我们引入了语义标签融合策略,该策略通过投票有效地组合所有结果。我们研究了不同的场景,例如零样本学习和稀疏 2D 点标签的有限指导,以评估不同视觉基础模型的优缺点。我们的方法在 3D 室内场景的 ScanNet 数据集上进行了实验,结果证明了采用通用 2D 基础模型来解决 3D 点云分割任务的有效性。

I. 简介

作为计算机视觉中的一项基本任务,3D 点云分割旨在预测场景中每个点的分类标签。其影响涉及多个领域,从工业自动化和机器人技术到增强现实和环境监测。随着深度学习技术的发展,该研究领域提出了大量的工作。然而,这些方法中的大多数都需要大量的训练数据以及详细的点级注释。

近年来,基础模型的进步显着激增。这些模型在广泛且多样化的数据集上进行训练,作为随后可以定制的基本基础,以解决与原始训练模型密切相关的各种下游任务。零样本泛化的卓越能力有可能显着降低人类计算机视觉任务中的努力成本。它使我们能够转移所获得的知识,从而无需从头开始训练一切。

虽然这些基础视觉模型最初是为了解决 2D 图像感知挑战而设计的,但它们在 3D 视觉任务中的适用性在很大程度上仍然未知。为此,我们开始利用基础模型进行 3D 分割任务,并希望我们的探索能够为其他研究人员在未来的研究中提供一些见解。与通过传统相机获取的 2D 数据相比,3D 数据通常通过使用 LiDAR 传感器或基于 RGB-D 的 3D 扫描仪获取。例如,考虑 ScanNet 等 3D 室内场景数据集。这些数据集从不同的角度收集数据,包括 RGB 图像、深度图和相机姿势。随后,采用重建方法融合收集到的信息并生成 3D 场景点云,该点云由离散点及其相应的 XYZ 坐标和 RGB 颜色组成。

在本研究中,我们研究如何利用基础模型的分割结果在 3D 场景中产生连贯的预测。给定 3D 场景的点云以及摆好的 RGB-D 帧,我们首先使用不同的基础模型预测所选视图中 RGB 图像的分割掩模。然后,这些预测的 2D 掩模将作为完整场景的片段投影到 3D 空间上。考虑到特定的 3D 点可能会被某些摄像机视点的其他场景元素遮挡,我们提出了一种通过标签传输和投票策略稳健地统一来自各种 3D 片段的预测的方法。最后,生成的伪 3D 注释可用于训练新模型,以对未见过的场景进行预测。

我们在两种不同的场景下进行了实验:零样本分割和依赖于 2D 稀疏标签的弱监督分割。在零样本分割的情况下,我们评估了基于 CLIP 的 Lseg 和带有 Grounding-DINO 的 SAM 的性能。对于弱监督分割,我们利用 2D 稀疏标签作为 SAM 的点提示输入。该方法只需要为一个语义类随机标注一个点。引入了几个点提示增强策略来增强 SAM 的输入,从而提高掩模预测的质量。

此外,我们还进行了深入分析,以揭示与每个基础模型相关的优点和局限性。

主要贡献可概括为:

• 我们开创了采用大规模预训练的视觉基础模型,例如 CLIP 和 SAM,用于增强 3D 点云分割任务的探索。

• 我们提出了一个新的框架,可以有效地将基础模型的分割结果运用到3D 场景中,为零样本分割和弱监督策略提供灵活性。

• 我们设计了一些点增强方法来为 SAM 提供补充线索,使我们的方法能够获得与完全监督基线相当的结果。

• 我们提供一些有价值的见解和知识,可以指导其他研究人员在该研究方向的未来探索。

论文阅读:Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud S_点云

二.相关工作

A. 3D 点云语义分割

与网格上表示的 2D 图像相比,点云数据 [1] 通常由 3D 空间内的非结构化和无序点组成。点云中的 3D 语义分割方法可大致分为基于点的方法 [2]-[10] 和基于体素的方法 [11]-[14]。基于点的网络直接处理原始点云作为输入数据。另一方面,基于体素的网络处理常规体素网格作为输入。其中,我们选择[15]中描述的3D-UNet架构作为我们工作的骨干架构,因为它具有卓越的性能和适应性。

B. 弱监督语义分割

为了解决与密集标签标注相关的高人力成本的挑战,这些弱监督方法[16]-[28]被提出用于二维图像分割。 Wei等人[29]提出了最初的点云语义分割的弱监督方法,他们采用子云级标签并利用类激活图(CAM)来生成点级伪标签。 Wang 等人 [30] 将语义注释从 2D 平面投影到 3D 空间,为点云生成标签。后来的一些作品[31]、[32]使用稀疏点作为监督,并将标签传播到未标记的区域。张等人[33]提出通过基于注意力的变压器网络在点云上进行少样本学习。这些方法[34]、[35]通过动态标签传播和自我监督学习来应对挑战。 Dong等人[36]-[38]提出了基于随机游走的算法从稀疏点传播到未知区域。

C. 视觉基础模型

最近,视觉基础模型的引入彻底改变了图像分割的方法。大规模预训练视觉模型具有显着的优势,包括增强的泛化性、零样本传输能力、针对数据稀缺的强大解决方案以及无缝适应不同的下游任务。 CLIP [39] 是一种先驱的文本图像基础模型,它通过对比学习学习在统一的嵌入空间中关联图像和文本。

接下来,OpenCLIP [40]、ALIGN [41] 和 Flamingo [42] 类似地通过自然语言描述的指导来学习图像表示。这些模型在对象识别和分类等任务中表现出显着的熟练程度。此外,DALL-E [43] 使用离散变分自动编码器执行零样本文本到图像生成。 大规模模型预训练的进步也导致了对单独研究途径的探索,旨在从图像中提取与类别无关的特征。

为了最大限度地泛化各种对象类别和未见过的数据分布,分段任意模型 (SAM) [44] 引入了基于提示的掩模预测,并在包含超过 10 亿个掩模的广泛数据集上进行了训练。 给定一组假设属于某些对象的点或框,该基础模型具有生成与类无关的 2D 掩模的能力。为了检测开放集中的物体,Grounding-DINO [45]将基于 Transformer 的检测器 DINO 与接地预训练集成在一起。

三.方法

我们的方法概述如图 1 所示。第一步是根据 RGB-D 视频帧上选定图像的预训练视觉基础模型计算每像素语义预测。然后,我们利用它们相应的相机姿势和深度图将预测投影到 3D 空间上。另一方面,我们为输入 3D 点云中的所有点创建一个空累加器,它可以充当存储来自各个帧的结果的容器。对于每个投影的 3D 片段,我们设计了一种投票策略,以有效地将其标签转移到累加器。最后,所有累积的投票被稳健地合并以生成最终的 3D 伪语义标签。

A. 单帧 2D 分割

给定单个 RGB 帧作为输入,我们可以采用不同的预训练视觉基础模型来预测语义掩模。在这项工作中,我们主要关注三类策略,如图2所示。

论文阅读:Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud S_点云_02

对于类型 (a),我们采用 LSeg(语言驱动语义分割),这是一种扩展 CLIP(对比语言图像预训练)原理的方法。它通过关联文本和图像特征来解决 2D 语义分割问题。 每个像素的图像特征都与代表类别名称的文本提示相匹配,从而允许分配给具有最高相似度的类别。

对于类型 (b),我们联合使用 Grounding-DINO 和 SAM(Segment Anything Model)。虽然 SAM 旨在生成与类别无关的掩码,但语义分割任务需要额外的信息。为了弥补这一差距,我们利用 Grounding-DINO 从输入图像中提取 2D 边界框。然后,这些边界框建议被输入 SAM 的提示编码器,使 SAM 能够生成具有相应类别标签的掩码。

对于类型 (c),我们利用稀疏注释的 2D 点作为 SAM 中点提示的输入。在这种情况下,真实标签是通过对图像中出现的每个类别随机采样单个点来生成的。有了这些稀疏的带注释的点,SAM 为每个点生成掩码。 具体地,对于给定的语义类,将特定的标注点作为正点,而剩余的标注点作为负点。

B.点提示增强

论文阅读:Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud S_点云_03

为了进一步增强类型(c)的交互式图像分割性能,我们的方法采用增强点提示来向SAM提供附加信息。从初始点提示开始,SAM 生成初始掩模,然后我们提出的方法使用该初始掩模来创建增强点提示。通过集成这些附加点,SAM 能够利用增强点提示和初始提示生成增强分割掩模。 我们评估了在初始掩模上挑选增强点的三种方法:随机选择、最大距离和最大差异熵。

所提出的最大熵增强的核心原理是找到与初始点相比使熵差最大化的点。我们采用以初始掩码内的每个候选区域为中心的 9x9 网格,并计算其候选区域的熵。每个候选点的熵由该区域内像素RGB颜色分布决定。我们将候选点的熵差与初始点的区域熵进行比较,然后选择差异最大的点作为增强的第二正点提示添加。

C. 2D 到 3D 投影

我们采用针孔相机模型的内在和外在矩阵,结合 2D 深度图,促进将 2D 语义分割结果从图像平面投影到 3D 空间。此过程需要将像素级语义标签从 2D 图像域转换为 3D 场景内的对应点。通过利用相机参数和深度信息,该投影操作在 2D 图像中的语义分割区域与其在 3D 点云中的相应位置之间建立了直接关联,从而实现了跨维度语义理解的无缝集成。

D. 通过投票进行累积语义融合

论文阅读:Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud S_点云_04

在我们方法的后续阶段,我们引入了一种投票策略,旨在稳健地合并 3D 语义分割结果。该策略的核心是将标签从投影的 3D 语义分割点云片段转换到专门指定的 3D 累加器点云上,该点云是根据原始输入 3D 点云精心构建的,封装了整个场景。该过程的机制如下:对于标记片段内的每个点,我们测量其与综合输入 3D 点云内的点的接近度。 如果它们之间的距离落在预定阈值内,则与该片段关联的标签将被转移到 3D 累加器点云中的相应点。 然后,这些标签被累积聚合并存储。随着累加的进行,我们识别 3D 累加器点云中每个点最常出现的类标签。随后,该主要标签被指定为该点的最终伪 3D 语义标签。算法 1 详细介绍了该过程。这种投票策略可以创建广泛且改进的伪 3D 语义注释,从而增强我们的模型在整个 3D 场景中提供明智预测的能力。

四.实验

A. 数据集和评估指标

我们在广泛认可的 ScanNet-v2 数据集 [46] 上评估我们的方法。该数据集包含 1513 个真实室内场景下的 250 万个 RGB-D 视图,以及具有 20 个不同对象类别的详细语义标签。与替代的 3D 室内数据集相比,ScanNetv2 因其完整性和广泛的认可度而脱颖而出,使其成为评估我们提出的框架性能的合适选择。平均交并集 (mIoU) 评估指标用于衡量 3D 语义分割的性能。

实现细节:

我们在 ScanNet-v2 数据集的所有 1201 个训练场景中实现了所提出的方法。为了提高效率,我们的方法仅使用部分 RGB-D 帧,每 50 帧间隔选择一次。我们将 Gounding-DINO 模型的框得分阈值设置为 0.5。对于 SAM 模型,我们将其配置为生成三个不同粒度级别的掩码,并选择置信度得分最高的一个作为输出掩码。在累积语义融合算法中,我们应用 0.1m 的半径阈值进行标签传输。

为了使用生成的 3D 伪语义标签训练新模型,我们配置了子流形稀疏卷积[12] 基于体素大小为 2cm 的主干。我们的网络训练在单个 GPU 卡上进行,在每个阶段依次训练主干网络和自注意力模块。对于这些组件,我们分别采用 4 和 2 的批量大小。自注意力模块参数γ和δ被定义为隐藏维度为64和32的两层MLP。在网络训练期间,优化采用Adam求解器,初始学习率为0.001。

B. 定量结果

利用累积语义融合算法生成的 3D 伪语义标签,我们从头开始训练基于稀疏卷积的 U-net 主干网络。表 I 展示了根据我们提出的方法生成的 3D 伪语义标签的质量。表2显示了 ScanNet 验证集的预测结果。我们可以观察到点增强对于提高性能很有用。我们的弱方法总体得分仅比完全监督基线低 3.1%。

论文阅读:Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud S_点云_05

在分类结果中发现了以下有趣的观察结果。首先,我们观察到增广点提示与 SAM 结合可以有效提高我们方法的性能。对于某些类别,例如柜台、书桌、冰箱、浴帘、卫生间、浴缸和其他家具,我们的弱监督配置取得的结果甚至比完全监督方法更好。然而,与普通 SAM 相比,采用点增强方法后,浴帘和浴缸的性能下降。在三种类型的点增强中,最大熵方法对于大多数情况来说似乎是最有效的。该方法始终选择出现可能性最小的第二个点作为 SAM 的输入,为 SAM 提供更多机会来识别完整的对象。基于最大距离的增强策略的效果可能是矛盾的。虽然对于“地板”和“柜子”等大型对象是有效的,通过最大化两点提示之间的距离来实现更好的覆盖,这可能会损害边界模糊的相对较小对象的性能。

其次,我们惊讶地发现我们基于 CLIP 的零样本方法在床类别上表现得非常好,超过了其他基于弱监督 SAM 的方法的结果。这可能是由于基础模型中使用的训练样本量所致。另一方面,当直接将 SAM 与 DINO 结合使用时,性能并不是很令人满意。这可以在我们的主要论文中从可视化结果中看出。有许多丢失的对象导致黑色未标记点。此外,我们观察到 4 到 5 个班级的结果为零。这些类努力与不常见的类名称(例如浴帘和其他家具物品)建立直接关联。此外,还有一些类具有令人困惑的相似概念,例如桌子和桌子。解决基于视觉基础模型的零样本学习中的这些复杂性需要采用更复杂的方法。

论文阅读:Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud S_点云_06

C. ScanNet-v2 数据集的比较

在表 III 中,我们将我们的方法与其他现有方法的语义分割结果进行了比较 [3]、[5]、[6]、[15]、[29]、[32]、[47] ]–[54]。在非常有限的监督下,与大多数现有方法相比,我们的方法可以实现有竞争力的结果。

D. 自注意力模块的消融

论文阅读:Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud S_点云_07

如表4所示,我们评估了自注意力模块的有效性。实验是用带有2D稀疏点提示的vanila SAM生成的伪标签进行的,这里不包括点提示增强。

E. 可视化结果

如图 2 所示,我们使用三种类型的策略来利用视觉基础模型对图像进行 2D 语义分割。为了证明所提出方法的有效性,我们对每种策略进行了实验,从 2D 图像分割和 2D 点提示增强到最终的 3D 点云预测。

F. 基础模型比较

论文阅读:Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud S_点云_08

在图 4 中,我们展示了使用不同基础模型策略的 2D 语义分割结果。通过我们提出的累积语义,来自不同帧的 2D 预测被合并为 3D 伪标签融合(CSF)方法。生成的 3D 伪标签的质量如图 7 所示。

基于 CLIP 的 LSeg:基于 CLIP 的 LSeg 模型利用其对图像文本关系的理解,在零样本学习下展示了合理的像素级分割结果。然而,我们观察到模型找到准确掩模边界的能力有些有限,有时在目标模糊的情况下预测的掩模可能缺乏一致性,导致分割结果支离破碎。 由于我们使用所有 20 个类名称作为 LSeg 的文本提示,因此有时可能会错误地检测到最初不存在的类。

带有 Grounding-DINO 的 SAM:SAM 模型擅长以零样本方式生产高质量的与类别无关的掩模。在我们的实验中,我们利用预训练的 Grounding-DINO 模型来生成具有相应语义类别的边界框建议。我们观察到这些建议往往是准确的,尤其是在框阈值较高(例如 0.5)的情况下。在这些框提示的指导下,SAM 通常也会生成准确的掩模,具有清晰的边界和连贯的内部预测。然而,这种方法的主要问题是存在很多漏检(误检)。例如,在图 4 中,第二行显示尽管遮挡程度极小,但厕所仍未被检测到。在图 7 中,我们可以观察到与其他两种方法相比,该方法表现出明显更高数量的空预测(由黑色点表示)。这种情况需要权衡:降低框阈值可能会导致检测量增加,但也会导致更多误报。不可能找到适合所有场景的单一固定阈值。

具有 2D 稀疏点注释的 SAM:除了前面提到的两种 2D 零样本语义分割方法之外,我们还评估了一种利用 2D 稀疏点注释作为监督的弱监督方法。在该方法中,每个语义类由随机选择的点表示。我们观察到,通过合并这些极其稀疏的标签,性能有了显着提高。例如,在图 4 中,第三行说明基于 CLIP 的 LSeg 难以识别的沙发、椅子和其他家具等物体现在可以使用这种方法正确区分。

然而,这种方法仍然存在一些挑战。由于与检测到的边界框相比,单点提示中的信息有限,SAM 有时很难确定分段的适当大小。因此,最终的掩模尺寸有时可能太大或太小。此外,当注释点位于对象边界附近时,有可能在不正确的目标上生成错误的掩模输出。此外,掩码的一致性似乎不如使用框提示输入的 SAM 观察到的那么稳健。在某些情况下,面罩仅覆盖部分并显示出独特的孔图案,对于大型物体尤其明显。

G. SAM 的点提示增强 点提示在增强 SAM 模型的能力方面发挥着至关重要的作用。然而,仅依赖单个提示可能会导致分段歧义,其中提示对应于多个有效掩码。 SAM 可能很难区分提示所引用的是哪个掩码。 为了减轻这种模糊性,出现了两种直接的方法:加入额外的负面点提示来施加限制,或引入更多的正面点提示来增强确定性。

论文阅读:Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud S_点云_09

在我们的情况下,在处理目标类时,我们使用来自不同类的真实点注释作为负点提示。图 5 中的左上角图像显示了 SAM 生成的三个预测中最小的初始掩模。我们的方法旨在增强第二个积极作用使用不同策略进行点提示,并提供给 SAM 进行后续预测。得分最高的掩模被认为是最终的 2D 掩模。

论文阅读:Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud S_点云_10


论文阅读:Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud S_点云_11

如图 6 所示,具有点增强功能的 SAM 能够识别更完整的对象,并改进掩模边界的轮廓。

H. 局限性和未来的工作

在这项研究中,我们正在着手采用各种 2D 预训练视觉基础模型来解决 3D 点云分割任务。然而,我们提出的方法仍在不断发展,尚未完全完善。每种方法都有一定的局限性。基于 CLIP 的 LSeg 在生成一致的掩模和清晰的边界方面存在模糊问题。 Grounding-DINO 对框提案生成的固定阈值的依赖可能会阻碍其在像素级别捕获所有片段的能力。基于点提示的 SAM 面临两个重大挑战:(1)模型缺乏语义意识,无法直接处理重要的上下文信息,有时会导致错误的对象分割。 (2) 适当的粒度级别存在模糊性问题,这可能会影响分割结果的准确性。

未来,要充分发挥所提出方法的潜力,还有很多工作要做。首先,CLIP、Grounding-DINO 和 SAM 的特性似乎是相辅相成的,并且表明了可以进一步利用的内在互惠互利。探索更有效的方法来促进协作有望实现更高的绩效成果。其次,标签融合策略可以更加复杂。这将涉及开发一种更智能的能力来区分好坏的 2D 掩模,以及更强大的生成和完善最终预测的过程。此外,我们尚未在我们的方法中充分利用 3D 几何信息。在未来的研究中,探索 3D 特征的提取可能会改善传播。

I. 结论

在本文中,我们提出了一系列方法来利用视觉基础模型在 3D 点云分割任务中的潜力,以及用于标签融合的有效管道。该框架通过稀疏 2D 点提供零样本分割和弱监督选项。此外,我们还研究了点增强策略的应用,以增强 SAM 的功能。 我们在 ScanNet 数据集上的结果证明了我们方法的有效性,弱监督方法甚至达到了与我们完全监督基线相当的结果。 这项工作的主要目标是为采用 3D 基础模型提供指导,并激发未来研究的潜在途径。




【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月24日 0

暂无评论

推荐阅读
acjkVgjDeGbH