封面《湛蓝牢笼 Rail of Möbius》

前言

因为实验室项目使用了U-Net网络因此读了一下论文来了解一下。

卷积神经网络的典型应用是分类任务，而医学影像需要位置信息，即对每一个像素打标签。此外医学影像的数据集很少。
在U-Net之前Hence,Ciresan等人训练了一种基于滑动窗口的方法，该方法使用一个像素周围的局部区域（patch）的像素来预测该像素的类别。这种方法有两个优点:

可以进行类别的定位
每个patch可以视为数据增强增大训练集的数据量。

但是这种方法也有两个缺点:

速度很慢，因为网络需要计算每个patch，同时每个patch还有大量重叠冗余
需要权衡定位准确度和使用的上下文信息，因为大patch需要更多的池化层，会减少定位的准确度。而小patch只能让网络看到一点内容。

对此U-Net提出了新的网络结构。而对于医学影像数据集少，U-Net提出了使用弹性形变来进行数据增强增加数据集。

U-Net网络结构

U-Net的其中一个创新点就是其网络结构，其分为左侧的contrating path和右侧的expansive path。左侧为典型的卷积神经网络，使用两个3×3卷积层，每一个卷积后有一个非线性的RELU，然后用2×2的最大池化层进行下采样，下采样之后将通道数翻倍。右侧的expansive path每一步为使用一个2×2的卷积上采样减半通道数，并将左侧的特征图拼接起来（concat），然后使用通过两个3×3的卷积层，每一个有RELU激活函数。在最后一层使用1×1卷积将通道转换为需要的类别。整个网络一共有23个卷积层。

整个网络是一个encoder-decoder结构，由于形状像U型所以被命名为U-Net。