论文阅读：A_Multi-Granularity_Scene_Segmentation_Network_for_Human-Robot_Collaboration_Environment

A_Multi-Granularity_Scene_Segmentation_Network_for_Human-Robot_Collaboration_Environment_Perception

用于人与机器人协作环境感知的多颗粒度场景分割网络

摘要

人机协作(Human-robot collaboration, HRC)被认为是未来以人为中心的智能制造的一种有前途的范式，以满足蓬勃发展的大规模个性化需求。在此背景下，现有机器人系统通常采用单粒度语义分割方案进行环境感知，缺乏针对各种HRC情况实现的灵活性。为了填补这一空白，本文提出了一种多粒度场景分割网络。受最近一些网络设计的启发，我们构建了一个分别为RGB和深度提供两个ConvNext-T主干的编码器网络，以及一个由多尺度监督和多粒度分割分支组成的解码器网络。提出的模型在人机协作电池拆卸场景中进行了演示，并与纽约大学深度V2数据集上最先进的RGB-D语义分割方法进行了进一步评估。

一、导语

制造业大规模个性化的现代趋势激发了人们对在制造车间采用人机协作(human-robot collaboration, HRC)的极大兴趣和倾向，以实现人与机器人团队的力量互补，以及快速适应多样化个性化生产需求的灵活性[1]。

为了在与人类操作员共享的空间中实现自主导航和自适应协作，机器人应该配备先进的认知系统，可以持续感知周围环境。早期的机器人系统主要依靠力和深度值等原始感官数据来构建机器人感知和控制策略[2]，而最近的趋势是通过将语义融入场景感知过程[3]-[5]来增强机器人的感知技能。

一种常用的技术是语义分割，它利用对环境的视觉观察作为输入，并在像素级上将其分割成不同的语义区域。在过去的几十年里，大量的工作都致力于语义分割任务，从基于图像处理的方法到最近流行的基于深度学习的方法[6]。然而，现有的大多数工作只考虑单一粒度的场景分割任务，不管感知距离和预期目标如何，对所有场景的分割都采用统一的标准。这种单粒度方案无法满足机器人在人机环境中经常遇到的不稳定情况。例如，当机器人在远距离导航时，为了避免碰撞，可以将人体分割为一个整体，但在近距离协同组装的情况下，为了机器人的精细动作，需要区分人的手和手臂。

因此，本工作旨在扩展场景分割的多粒度任务公式，包括三个级别的粒度:区域级、实体级和部件级，其中的示例如图1所示。通过这种多粒度的场景表示，协作机器人(cobot)可以根据自身现状在不同粒度级别之间自适应地交替注意力，并进一步分析环境信息，便于后续决策和运动规划。

论文阅读：A_Multi-Granularity_Scene_Segmentation_Network_for_Human-Robot_Collaboration_Environment_Percep_数据集

在这项工作中，由于RGB-D相机在室内场景中价格更便宜，性能合理，因此使用RGB-D相机来捕捉HRC场景。提出了一种多粒度场景分割网络，该网络采用常用的编解码器结构。基于ConvNext骨干网[7]开发的编码器网络，将RGB和深度信息融合为统一的特征表示，在此基础上利用多级细化和多任务策略构建解码器网络，可以同时产生多粒度分割结果的策略。以人机协同拆卸电池模组为例，验证了所提模型的有效性，并在公共数据集NYU-Depth V2[8]上进行了对比实验，验证了所提模型的通用性。

本文的其余部分组织如下:首先，第二节对相关工作进行了文献综述。接下来，第三节说明了所提议的方法的细节。然后，在第四节进一步进行了实验和对比研究，以验证该方法的有效性和可行性。第五部分最后总结了本文的主要贡献和今后的工作。

2. 相关工作

a . HRC中的环境感知

作为人机协作系统的先决条件，基于视觉的环境感知在文献[9]中得到了广泛的研究。一些作品直接使用RGB-D相机或激光雷达等原始感官数据来检测和避开障碍物[10]，[11]，而最近的趋势是在环境感知过程中利用语义。Butler等[3]报道了一种交互式场景分割方案，该方案将人工辅助引入机器人场景感知过程，以提高对象分割性能。为了在复杂的室内环境中使用自然语言指令实现机器人的安全导航，Hu等[4]利用SLAM生成的2D地图表示全局环境，并采用Mask R-CNN模型实现局部机器人观测的实例级场景分割。Rozenberszki等[5]提出了一种利用人类视图数据重建三维语义地图的管道，并将语义标签传递给机器人代理，以简化机器人对场景的理解。这些工作的局限性是语义层次单一，不能灵活地适应各种HRC活动。

B.RGB-D语义分割

基于RGB-D信息的语义分割任务已经得到了广泛的研究。一些研究尝试将RGB-D数据投影到3D空间中，并基于3D点云或体素数据[12]，[13]进行语义分割。然而，目前的一个主要问题是，神经网络在处理3D体积数据时通常效率较低，这使得它无法部署在时间敏感的机器人应用中。更可行的方法是分别处理RGB图像和深度图像，然后将特征融合在一起[14]-[16]。Chen等[16]提出了SA-Gate模型，该模型在RGB和深度编码器分支之间采用交织融合策略。Seichter等[15]更专注于分割编码器和解码器网络的高效设计，以促进机器人应用。尽管如此，这些工作仍然主要依靠ResNet骨干网进行特征提取，在许多视觉任务上已经被Swin Transformer[17]和ConvNext[7]等现代网络所超越。另一项与我们的工作密切相关的工作是多任务语义分割[18]，[19]。虽然在这些工作中考虑了各种像素级的预测任务，如边缘图、表面法线、物体部分分割等，但很少提及以多粒度的方式实现场景分割。

3多粒度场景分割机器人

在HRC环境下任务的不稳定性使得单粒度场景感知方案缺乏灵活性和通用性。为此，我们提出了一种多粒度场景分割模型来增强机器人的认知能力。在以前的一些分割工作中，如多粒度人的表示[20]和多粒度特征映射[21]中也提到了多粒度这个术语，但其基本概念和定义与我们的有很大的不同。在本节中，我们将首先公开我们的演示HRC场景的多粒度分割标准，然后将详细描述所提出的多粒度场景分割网络架构.

A. HRC的多粒度分割标准

典型的语义分割任务通常采用仅基于实体级别(如机器人或人)的分割标准，对于不同角度和距离的图像保持不变，如一些著名的公共数据集[8]，[22]。为了增强协作机器人的感知灵活性，我们将HRC拆卸案例的分割标准扩展为区域级、实体级和部件级三个层次，具体定义如图2所示。

论文阅读：A_Multi-Granularity_Scene_Segmentation_Network_for_Human-Robot_Collaboration_Environment_Percep_数据集_02

区域级用于处理粗粒度的机器人任务，例如导航到特定的工作区域。在这里，我们启发式地定义了HRC场景中的5种类型的区域。

本文中的实体层与传统的语义分割标准保持一致，该标准根据不同的实体的语义类别对其进行分割。这是为自主机器人的一般感知目的保留的。

另一方面，零件级别是在fner grain中定义的，它根据不同的功能和与机器人末端执行器交互的可能性将实体分为其组成部分。这一水平可能对一些精细的任务有益，如人机协同组装，其中对产品部件和人手等详细部件的识别是先决条件。

B.模型架构

本文提出的多粒度分割模型(MGS-Net)的总体架构如图3所示。一般模型设计采用编码器-解码器结构。

论文阅读：A_Multi-Granularity_Scene_Segmentation_Network_for_Human-Robot_Collaboration_Environment_Percep_卷积_03

编码器由两个分支网络组成，分别用于RGB信息和深度信息，这两个分支网络采用ConvNext模型[7]。解码器部分的灵感来自ESANet[15]，我们进一步扩展了它与多尺度细化和多粒度分割设计。

1) RGB- d编码器:编码器网络的目的是提取RGB和深度特征，并在不同阶段进行聚合，以便更好地利用RGB和深度图中的互补信息。RGB和深度分支遵循ConvNext[7]的相同理念，主要区别是融合模块的合并。ConvNext是ResNet的现代化版本，从Visual Transformer模型中借鉴了一些微观和宏观设计原则。由于计算成本与ResNet相似，ConvNext在相当大的范围内表现得更好。在这项工作中，为了简单起见，我们使用了ConvNext-T变体，其块如图4(a)所示。

在骨干网络的每个阶段，我们通过融合模块将深度特征融合到RGB分支中，融合模块利用[23]中提出的通道注意机制来实现自适应和可学习的融合机制。具体结构如图4(b)所示。

论文阅读：A_Multi-Granularity_Scene_Segmentation_Network_for_Human-Robot_Collaboration_Environment_Percep_卷积_04

在编码器部分的特征提取之后，我们又使用了金字塔池化模块[24]来处理具有不同池化尺度的特征，该模块被认为能够聚合全局和局部上下文信息，并且已经被以往的研究证明有利于分割性能。

2)多粒度解码器(Multi-Granularity Decoder):解码器网络主要由三个连续的解码器模块(Decoder module)和一个输出头(Output Head)组成，前者对特征图进行逐步解码和放大，后者将特征图比例恢复到输入大小，并产生最终的分割结果。

解码器模块如图5所示，其中第一部分包含一个3×3卷积层和一个由几个3×1和1×3卷积组成的分解残差块[25]，这意味着更好的计算效率。然后，船头分叉成一条主路和一条支线输出路径。主路径由最近的上采样操作和深度卷积层组成，来自编码器的跳过连接附加到输出特征映射。另一方面，侧输出路径旨在通过在不同解码器阶段产生侧分割结果来提供多尺度分割监督。对于每个阶段，侧路径将同时输出三层分割结果，网络结构相同，主要由最近的上采样、简化的空间注意模块和输出1×1卷积组成。利用上采样和空间注意结合较小尺度的分割结果，生成细化的分割。请注意，第一个解码器模块没有修饰连接，因为它已经是最小的了.

论文阅读：A_Multi-Granularity_Scene_Segmentation_Network_for_Human-Robot_Collaboration_Environment_Percep_编码器_05

论文阅读：A_Multi-Granularity_Scene_Segmentation_Network_for_Human-Robot_Collaboration_Environment_Percep_编码器_06

解码器的最后阶段是Output Head，如图6所示，它将特征映射恢复到输入大小，从而生成逐像素的分割结果。主特征图首先通过3×3卷积处理，然后将之前的侧分割结果以类似于解码器模块中的方式合并到主特征中。经过两个连续的上采样阶段，生成fnal分割结果。多粒度分割的三个分支都遵循相似的网络结构，唯一不同的是根据章节III-A中定义的不同粒度级别的类别，最终输出通道。

对于分割监督，我们采用交叉熵损失，根据每个类在地面真相分割图中呈现的像素数对其进行额外的权重项。加权交叉熵损失可以表述为:

论文阅读：A_Multi-Granularity_Scene_Segmentation_Network_for_Human-Robot_Collaboration_Environment_Percep_数据集_07

其中C为类数，wi为类权值，yi为ground truth标签的one-hot向量，pi为预测值。我们将此损失函数应用于不同尺度和不同粒度的所有分割监督，包括4个尺度× 3个粒度。总的损失函数就是这些损失项的和。

4.实验

在本节中，我们首先在模拟HRC电池模组拆卸环境中进行了一些实验，以演示我们所提出的多粒度分割模型的应用案例。然后，为了进一步说明所提出模型的通用性，还通过与以前最先进的模型和消融研究的比较研究，在公共NYUv2数据集上进行了实验，以评估网络的不同组成部分。

a .实现细节该模型通过Pytorch实现，由Nvidia RTX3080Ti GPU加速。编码器的骨干部分使用[7]提供的预训练权重进行初始化。其他层是随机初始化的。初始学习率为1e-4的AdamW优化器与带热重启的余弦退火调度器一起使用，其中T0 = 5, Tmult = 3。该模型训练500个epoch，批大小为4。其他常见的训练技术，如数据增强，包括随机调整大小、裁剪和填充，也采用了常见的实践。

B.人-机器人协同拆卸案例实验的第一部分是在模拟锂离子电池拆卸场景中进行的，其中人类操作员在机器人协作者的协助下进行拆卸操作。

1)数据收集:在工作区域周围以不同角度和距离放置RGB-D摄像机，以模拟移动合作机器人可能的视图。我们捕获了数百张图像，但由于人力有限，并且手动注释三级分割标签的重要性，我们只注释了其中的40张图像。

但我们认为，由于只考虑了单个HRCD场景，因此这样的样本量应该足以演示我们的模型。

2) 结果:32个标注样本用于训练，8个用于测试。我们基于mIoU度量来评估性能，该度量衡量了预测分割结果与地面真相之间的重叠程度。本文模型在Area、Entity和Part三个层次上mIoU分别达到84.90、75.07和69.47，部分定性结果如图7所示，为了便于说明，将图像裁剪成正方形。

论文阅读：A_Multi-Granularity_Scene_Segmentation_Network_for_Human-Robot_Collaboration_Environment_Percep_编码器_08

生成的多粒度分割结果总体上看似合理，但在边界区域和小结构中普遍存在一些噪声和误差，我们认为这主要是由于数据集大小有限造成的。作为机器人系统的一部分，模型的推理速度也是一个必须考虑的问题。该模型在GPU加速下的实现速度可达62 FPS，可以满足实验室演示目的。对于时间更敏感的机器人应用，更多的技术，如剪枝，量化等，可以在未来的研究工作中进一步开发。这里我们不与其他方法进行比较，因为我们认为数据集规模太小，无法进行公平的比较，这也是我们决定在公共数据集上额外进行以下比较实验的原因。

C.关于NYU-Depth V2数据集的实验NYU-Depth V2数据集[8]是一个常用的基准来评估RGB-D语义分割算法。该数据集包含1449个具有像素级语义标签的室内场景RGB-D样本，根据我们的多粒度准则，这些样本主要定义在实体级，包含40类实体。我们遵循数据集的原始分割，其中包括795个用于训练的样本和654个用于测试的样本。由于数据集只包含单粒度语义注释，我们通过重新定位区域级别和部分，对我们提出的模型进行了一些调整等级分支预测边缘图和法线图如[19]，作为额外的监督，便于模型训练。

1)比较结果:我们提出的MGS-Net与一些最新的先进方法的评价结果如表i所示。我们采用了三个常用的指标，PixAcc(像素精度)，mAcc(平均精度)，mIoU，这三个指标在之前的工作中被广泛使用。我们可以看到，我们的模型与表现最好的人是一样的。取得这一成就的原因之一是ConvNext主干。由于计算成本仅略高于ResNet50, ConvNext主干比ResNet-101和ResNet-152等体积较大的模型性能更好。

其他现代网络设计的采用，如多尺度监控，多级细化连接，多任务预测等，也在很大程度上有助于性能的提高，这将在消融研究中进行更详细的讨论。

论文阅读：A_Multi-Granularity_Scene_Segmentation_Network_for_Human-Robot_Collaboration_Environment_Percep_数据集_09

2) 消融研究(Ablation Study):表II列出了消融研究的结果，在消融研究中，我们主要考虑5个组成部分:backbone, optimizer, multi-scale supervision (MS)， multitask prediction (MT)， refine connection (Refne)。当ConvNext主干对预期的改进做出贡献时，带有余弦退火调度器的AdamW优化器也通过实现更快的收敛和更流畅的训练过程对性能产生了重大影响。多尺度监督提供了实质性的改进，我们认为这是因为额外的约束迫使模型从多尺度特征中学习更多。疏导连接实际上是多尺度监管策略的一部分，是不同尺度侧监管之间的桥梁。通过从两个额外任务中提供额外的监督信号，多任务预测表现出适度的改善。总的来说，在公共数据集上的实验已经清楚地证明了我们的MGS-Net的有效性和通用性。

论文阅读：A_Multi-Granularity_Scene_Segmentation_Network_for_Human-Robot_Collaboration_Environment_Percep_编码器_10

5. 结论

针对当前HRC系统缺乏灵活的环境感知方案的问题，本文提出了一种多粒度场景分割模型，旨在同时将环境分割为不同层次的语义，以适应协作机器人操作过程中不断变化的需求。本工作的主要贡献如下:1)提出了RGB-D分割网络MGS-Net，采用了包括ConvNext骨干网、多尺度监控、多粒度预测等现代网络设计;2)在HRCD场景下定义了多粒度分割准则，并基于该准则验证了所提模型的可行性;3)在NYUv2数据集上对模型进行了进一步评估，并取得了与最先进的方法相当的结果。然而，仍有一些问题有待解决，如人权与发展委员会案例研究中的数据样本不足等。未来可能的研究方向包括:1)将该模型实现到协作机器人系统的嵌入式设备中，以更快的推理速度;2)利用协作机器人环境的点云作为输入源的一部分;3)将感知结果与随后的机器人推理和决策过程联系起来。