【计算机视觉】计算机视觉与模式识别关于图像分割的学术速递[10.20]-摩杜云开发者社区

分割|语义相关(8篇)

【1】 Putting the Object Back into Video Object Segmentation

标题：将对象放回视频对象分割中

https://arxiv.org/abs/2310.12982

我们提出了Cutie，一个具有对象级内存读取的视频对象分割（VOS）网络，它将内存中的对象表示放回视频对象分割结果中。最近的VOS工作采用自下而上的像素级内存读取，由于匹配噪声，特别是在干扰项的存在下，导致性能较低，更具挑战性的数据。相比之下，Cutie执行自顶向下的对象级内存读取，通过调整一小组对象查询来重构，并使用基于查询的对象Transformer（qt，因此是Cutie）迭代地与自底向上的像素特征交互。对象查询充当目标对象的高级摘要，同时保留高分辨率特征图以进行准确分割。与前景-背景掩蔽注意一起，Cutie干净地将前景对象的语义与背景分离。在具有挑战性的MOSE数据集上，Cutie比XMem提高了8.7 J&F，运行时间相似，比DeAOT提高了4.2 J&F，运行速度是其三倍。代码可从以下网址获得：https://hkchengrex.github.io/Cutie

【2】 EMIT-Diff: Enhancing Medical Image Segmentation via Text-Guided Diffusion Model

标题：Emit-Diff：基于文本引导扩散模型的医学图像分割

https://arxiv.org/abs/2310.12868

大规模、大变量和高质量的数据对于开发用于医疗应用的强大而成功的深度学习模型至关重要，因为它们可能会提高泛化性能并避免过拟合。然而，高质量标记数据的稀缺总是带来重大挑战。本文提出了一种新的方法来解决这一挑战，通过开发可控扩散模型的医学图像合成，称为EMIT-Diff。我们利用最近的扩散概率模型来生成逼真的和多样化的合成医学图像数据，通过结合对象的边缘信息来指导合成过程，从而保留原始医学图像的基本特征。在我们的方法中，我们确保合成的样本遵守医学相关的约束，并保留成像数据的底层结构。由于扩散模型的随机采样过程，我们可以生成任意数量的具有不同外观的合成图像。为了验证我们提出的方法的有效性，我们在多个数据集上进行了一系列广泛的医学图像分割实验，包括超声乳腺（+13.87%），CT脾脏（+0.38%）和MRI前列腺（+7.78%），与基线分割方法相比取得了显着改进。据我们所知，这是第一次，令人鼓舞的结果证明了我们的EMIT-Diff对医学图像分割任务的有效性，并显示了为一般医学图像分割任务引入首个文本引导扩散模型的可行性。通过精心设计的消融实验，我们研究了各种数据增强率，超参数设置，用于生成随机合并掩码设置的补丁大小的影响，以及与不同网络架构的组合影响。

【3】 FUSC: Fetal Ultrasound Semantic Clustering of Second Trimester Scans Using Deep Self-supervised Learning

标题：FUSC：基于深度自监督学习的中期妊娠扫描胎儿超声语义聚类

https://arxiv.org/abs/2310.12600

超声是妊娠期临床实践中的主要成像方式。每年有超过1.4亿的胎儿出生，这导致了大量的扫描。大量胎儿超声扫描的可用性为训练鲁棒的机器学习模型提供了机会。然而，大量的扫描也有其挑战，因为监督方法需要对每个图像进行手动标记。标记通常是劳动密集型的，需要专业知识来准确地注释图像。这项研究提出了一种无监督的方法，用于自动聚类超声图像到大范围的胎儿视图，减少或消除手动标记的需要。我们的胎儿超声语义聚类（FUSC）方法是使用88，063张图像的大型数据集开发的，并在8，187张图像的额外未见过数据集上进行了进一步评估，实现了超过92%的聚类纯度。我们的研究结果有可能对胎儿超声成像领域产生重大影响，并为更先进的自动标记解决方案铺平道路。最后，我们公开了代码和实验设置，以帮助推进该领域。

【4】 RecolorCloud: A Point Cloud Tool for Recoloring, Segmentation, and Conversion

标题：RecolorCloud：一个用于重新着色、分割和转换的点云工具

https://arxiv.org/abs/2310.12470

点云是用高精度激光扫描仪记录的环境的3D空间表示。这些扫描仪可能会受到环境干扰，如表面阴影，纹理和反射。正因为如此，点云可能会被虚假或不正确的颜色所污染。目前的开源或专有工具提供有限的或没有访问自动纠正这些视觉错误。 RecolorCloud是一款通过使用自动色彩校正来解决这些色彩冲突的工具。我们提供了删除或删除离群点自动与用户只需要指定边界框区域的影响颜色的能力。结果表明，大的点云的照片般真实的质量有很大的改善。此外，用户可以使用设置的语义分割颜色快速重新着色点云。

【5】 Lidar Panoptic Segmentation and Tracking without Bells and Whistles

标题：激光雷达无钟声全景分割与跟踪

https://arxiv.org/abs/2310.12464

最先进的激光雷达全景分割（LPS）方法遵循自下而上的以分割为中心的方式，其中它们通过利用聚类来获得对象实例来建立在语义分割网络上。在本文中，我们重新思考了这种方法，并提出了一个令人惊讶的简单而有效的检测为中心的网络LPS和跟踪。我们的网络采用模块化设计，并针对全景分割和跟踪任务的各个方面进行了优化。我们的网络的核心组件之一是对象实例检测分支，我们使用点级（模态）注释进行训练，如在以分割为中心的数据集中可用的那样。在没有非模态（长方体）注释的情况下，我们回归模态质心和对象范围，使用提供有关对象大小的信息的自动化级别监督，由于遮挡和激光雷达数据的稀疏性，无法从单次扫描中推断出对象大小。我们通过学习将激光雷达点与检测到的质心相关联来获得细粒度的实例片段。我们在几个3D/4D LPS基准上评估了我们的方法，并观察到我们的模型在开源模型中建立了一个新的最先进的模型，优于最近的基于查询的模型。

【6】 Not Just Learning from Others but Relying on Yourself: A New Perspective on Few-Shot Segmentation in Remote Sensing

标题：不光取长补短，自强不息：遥感Few-Shot分割的新视角

https://arxiv.org/abs/2310.12452

提出了一种利用少量标注样本分割未知类别目标的Few-Shot分割方法。目前的FSS方法大多遵循从支持图像中挖掘语义来指导查询图像分割的范式。然而，这种“向他人学习”的模式很难处理极端的类内变化，从而阻止FSS直接推广到遥感场景。为了弥补类内方差的差距，我们开发了一个名为DMNet的双挖掘网络，用于跨图像挖掘和自挖掘，这意味着它不再仅仅关注支持图像，而是更加关注查询图像本身。具体来说，我们提出了一个类公共区域挖掘（CPRM）模块，以有效地抑制不相关的特征污染，通过捕捉支持查询图像对之间的共同语义。类特定区域挖掘（CSRM）模块，然后提出了不断挖掘类特定语义的查询图像本身的“过滤”和“净化”的方式。此外，为了防止遥感场景中多类共存加剧FSS综合的崩溃，本文还提出了一种新的已知类Meta抑制器（KMS）模块来抑制样本中已知类对象的激活。在iSAID和LoveDA遥感数据集上进行的大量实验表明，我们的方法以最少的模型参数设置了最先进的方法。值得注意的是，我们的Resnet-50骨干模型在1次和5次设置下在iSAID上实现了49.58%和51.34%的mIoU，分别比最先进的方法高出1.8%和1.12%。代码可在https://github.com/HanboBizl/DMNet公开获得。

【7】 Deep Learning Techniques for Video Instance Segmentation: A Survey

标题：深度学习技术在视频实例分割中的应用

https://arxiv.org/abs/2310.12393

视频实例分割，也称为多对象跟踪和分割，是2019年引入的新兴计算机视觉研究领域，旨在同时检测，分割和跟踪视频中的实例。通过有效分析和利用视频中的视觉信息来处理视频实例分割任务，一系列支持计算机视觉的应用（例如，人类动作识别、医学图像处理、自主车辆导航、监视等）。随着深度学习技术在各种计算机视觉领域占据主导地位，已经提出了大量基于深度学习的视频实例分割方案。该调查提供了视频实例分割深度学习方案的多方面视图，涵盖了各种架构范例，以及功能性能，模型复杂性和计算开销的比较。除了常见的架构设计外，还编译和讨论了用于提高视频实例分割深度学习模型性能的辅助技术。最后，我们讨论了一系列的主要挑战和进一步调查的方向，以帮助推进这一有前途的研究领域。

【8】 TRUSTED: The Paired 3D Transabdominal Ultrasound and CT Human Data for Kidney Segmentation and Registration Research

标题：Trusted：配对的3D经腹超声和CT人体数据用于肾脏分割和配准研究

https://arxiv.org/abs/2310.12646

利用腹部超声（US）数据进行模态间图像配准（IMIR）和图像分割具有许多重要的临床应用，包括图像引导手术、自动器官测量和机器人导航。然而，由于缺乏公共数据集，研究受到严重限制。我们提出了TRUSTED（三维肾脏超声TomodEnsitometrie数据集），包括来自48名人类患者（96个肾脏）的配对经腹3DUS和CT肾脏图像，包括分割和两名经验丰富的放射技师的解剖标志注释。评价者间分割一致性超过94（Dice评分），使用STAPLE算法生成金标准分割。七个解剖标志进行了注释，IMIR系统的开发和评价的重要。为了验证数据集的实用性，对5个用于自动肾脏分割的竞争性深度学习模型进行了基准测试，CT图像的平均DICE分数为83.2%至89.1%，US图像的平均DICE分数为61.9%至79.4%。三种IMIR方法进行了基准测试，相干点漂移表现最好，平均目标配准误差为4.53 mm。TRUSTED数据集可供研究人员自由使用，以开发和验证新的分割和IMIR方法。