This core trainable segmentation engine consists of an encoder network, a corresponding decoder network followed by a pixel-wise classification layer.
模型
说明:
- 基础模型采用VGG16
- 去掉fc层,使得encoder网络更小,更易训练
- 134M –> 14.7M
- decoder网络将encoder网络中的低层像素映射到整张图像尺寸
- decoder网络与encoder网络基本完全对成
- 最终,对每一个像素进行multi-class soft-max分类
- decoder网络进行上采样的采用pool indices
- 基础模型采用VGG16