封面《湛蓝牢笼 Rail of Möbius》

前言

因为实验室项目使用了 U-Net 网络因此读了一下论文来了解一下。

卷积神经网络的典型应用是分类任务,而医学影像需要位置信息,即对每一个像素打标签。此外医学影像的数据集很少。
在 U-Net 之前 Hence,Ciresan 等人训练了一种基于滑动窗口的方法,该方法使用一个像素周围的局部区域(patch)的像素来预测该像素的类别。这种方法有两个优点:

  • 可以进行类别的定位
  • 每个 patch 可以视为数据增强增大训练集的数据量。

但是这种方法也有两个缺点:

  • 速度很慢,因为网络需要计算每个 patch,同时每个 patch 还有大量重叠冗余
  • 需要权衡定位准确度和使用的上下文信息,因为大 patch 需要更多的池化层,会减少定位的准确度。而小 patch 只能让网络看到一点内容。

对此 U-Net 提出了新的网络结构。而对于医学影像数据集少,U-Net 提出了使用弹性形变来进行数据增强增加数据集。

U-Net 网络结构

U-Net结构

U-Net 的其中一个创新点就是其网络结构,其分为左侧的 contrating path 和右侧的 expansive path。左侧为典型的卷积神经网络,使用两个 3×3 卷积层,每一个卷积后有一个非线性的 RELU,然后用 2×2 的最大池化层进行下采样,下采样之后将通道数翻倍。右侧的 expansive path 每一步为使用一个 2×2 的卷积上采样减半通道数,并将左侧的特征图拼接起来(concat),然后使用通过两个 3×3 的卷积层,每一个有 RELU 激活函数。在最后一层使用 1×1 卷积将通道转换为需要的类别。整个网络一共有 23 个卷积层。

整个网络是一个 encoder-decoder 结构,由于形状像 U 型所以被命名为 U-Net。

3D U-Net 结构

3D U-Net结构
3D U-Net 的结构与 U-Net 基本一致,就是卷积等操作变成三维操作,同时相比 U-Net 还增加了 BatchNorm 层,结构图中还可以看出上采样的时候通道数并没有减半。

参考文献

Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation[C]//International Conference on Medical image computing and computer-assisted intervention. Springer, Cham, 2015: 234-241.

Çiçek Ö, Abdulkadir A, Lienkamp S S, et al. 3D U-Net: learning dense volumetric segmentation from sparse annotation[C]//International conference on medical image computing and computer-assisted intervention. Springer, Cham, 2016: 424-432.