1 网络结构
训练阶段,网络生成三个预测:
- Text Region
- Kenel
- Similarity Vector
其中 1 和 2 为监督学习,3 为无监督学习(聚类)。
预测阶段,遵循以下步骤来使用相似度向量引导像素聚合到Kenel中
- 得到多个 Kenel;
- 对于每个 Kenel 的上下左右四个方向的像素,为 Text Region 内的每个像素找到与 Kenel 的欧式距离小于
d
d
d (作者设置为 6 )的像素并将其聚合;
- 重复步骤 2 知道没有可用的像素。
Kernel 是在 Text Region 里面的。
2 损失函数