【深度学习】MagicNet | CVPR2022 | 医学图像的3D mixer-摩杜云开发者社区

<<最近读物>>

TMI 2019 | Multi-Modal Knowledge Distillation

论文名称：MagicNet: Semi-Supervised Multi-Organ Segmentation via Magic-Cube Partition and Recovery
论文链接：https://openaccess.thecvf.com/content/CVPR2023/papers/Chen_MagicNet_Semi-Supervised_Multi-Organ_Segmentation_via_Magic-Cube_Partition_and_Recovery_CVPR_2023_paper.pdf

摘要

我们提供了一种teacher-student model for semi-supervised multi-organ segmentation.

通常在teacher-student框架中，数据增强是一种常见的作用在无标签数据上，然后通过teacher和student的一致性训练来regularize。我们从一个关键的点子出发：

fixed relative locations
variable sizes of different organs can provide distribution information where a multi-organ CT scan is drawn 因此这是一个利用先验结构来引导模型训练的半监督算法。此外，我们提出了一种数据增强的策略，基于partition-and-recovery N3 cubes。

method

符号定义:

CT是X，尺寸为WHL；
有C个类别
训练集D包含两个子集，和，前者是有标签的数据，后者是无标签的数据。
在文章的其他地方，we denote the oringal and mixed CT scans as magic-cubes, and denote the partitional small cubes as cubes for simplicity.

【深度学习】MagicNet | CVPR2022 | 医学图像的3D mixer_数据

magic-cube partition and recovery

【如何把CT划分成magic cubes的】

【深度学习】MagicNet | CVPR2022 | 医学图像的3D mixer_人工智能_02

看起来就是把原始CT划分成N份，其实问题就是：如果WHL不相等，那么每一个matic cube也是长方体而不是正方形。

【深度学习】MagicNet | CVPR2022 | 医学图像的3D mixer_人工智能_03

把这个magic cube 划分成更小的叫做cube的东西，其实我理解就是patch下面在划分成patch，然后可以把有标签的patch和没有标签的patch进行打乱，也就是上图中Mix small-cubes cross-image的东西。这个mix patch经过seg之后，得到的结果，我们可以recover成原来的进行计算损失。

这样做的目的是encourage labeled and unlabeled images to learn comprehensive common semantics from each other.(我还没想好，其实挺有趣的做法，但是还是感觉有点怪怪的。最大的问题就是，这种mix一定程度打乱了卷积的局部相关性，不同数据的这种mix混合是否会有增强效果。做法其实应该在全监督分割中做过，就是两个数据进行各种方法的融合，比方说moco？我觉得这种做法在teacher-student自然图像当中，好像有过类似的idea。只是这里放在了3D上面。再比如，如果我做一个事情，就是完全抛弃CT的先验结构，我通过数据增强，让一个人身体里面有两个心脏？让肾脏甚至可以和骨头进行重叠？这样的增强方式更类似最初的自然图像的mixer的逻辑。但是医学中这样做会不会有效果呢？这篇文章并没有这样做，而是在先验结构的协议下，进行的增强。)

上面是对于migic cube进行分割的叫做，cross-image的增强，下面还做了叫做with-in partition，我理解应该是输入小尺寸的数据，也就是cubes而不是magic cube。上图中的第一行就是在做这个事情。

Cube-wise Pseudo-label Blending

这一部分我觉得不太合理，感兴趣可以看下原文。

Magic-cube Location Reasoning

目的是利用prior anatomical knowledge of multi-organs。image的encoder得到特征图后，需要经过连个全连接层进行分类，预测的对象是这个magic-cube是哪一个位置的。这是一种理论上可以让模型考虑先验知识的做法。当然这样的做法是否真的有用：分割模型加入这个预测位置的分支，是否会影响特征提取对于分割的结合性。

此外，这篇文章的做法我最大的疑惑就是：2. 作者把数据变成1.5x1.5x2mm的spacing，但是不同的人不同的身高，那么意味着不同的人可能会在同样的magic cube上有不同的结构。这样的问题会对模型有

【深度学习】MagicNet | CVPR2022 | 医学图像的3D mixer_sed_04