《An Active Learning Approach for Reducing Annotation Cost in Skin Lesion Analysis》--阅读笔记-MLMI

最新推荐文章于 2023-01-09 02:44:07 发布

Jungle_King

最新推荐文章于 2023-01-09 02:44:07 发布

阅读量458

点赞数

分类专栏：论文阅读文章标签： active learning deep learning

本文链接：https://blog.csdn.net/yuehenmiss/article/details/102836396

版权

3 篇文章 0 订阅

订阅专栏

Xueying Shi, Qi Dou, Cheng Xue, Jing Qin, Hao Chen, Pheng-Ann Heng

港中文王平安组是真的屌啊

由于皮肤癌是人类最常见的恶性肿瘤之一，因此自动皮肤病变分析在临床实践中非常重要。现有的方法与深度学习已经取得了显着的紧张，但是，严重依赖于大规模标记数据集。文章目的是使用少量的数据，但是仍然取得SOTA的效果。实验在Skin Lesion Classi cation Challenge 上测试
通过主动样本选择，有效地减少了未标记样本池的数据冗余。然而，值得注意的是，图像集在颜色、纹理、形状和大小方面具有很高的类内偏差，如果直接使用这些样本，那么会陷入hard example mining的问题，同时面临过拟合问题
作者认为为了在很大程度上发挥其价值，更明智地使用所选样本的compact集也是非常关键的。然而，在现有的主动学习文献中，sample utilization策略较少受到关注。一个值得注意的方法是mix-up，它将新的训练数据作为来自不同类别的两个图像的像素加权加法进行扩充。然而，该方法不适用于类内variance较大而类间variance有限的情况，这正是我们在皮肤损伤分析中的情况。

作者使用ResNet101（M）作为模型，初始条件为，表示标记的初始训练集，表示oracle。

informative的数据是通过训练的模型预测，选择low prediction con dences得到的,原因：这些数据都在desicion boundary附近，所以被认为不确定样本。

representative的数据是通过结合PCA特征和hashing方法得到

，，N是所有unlabel的样本，以上便选出了个最不确定的样本。

，K=10是LSH中的buckets的个数，，γ是个参数。

许多工作都在寻找sample，但是忽略了对已经找到的样本进行增强利用，以便产生更多的可辨识的特征。作者认为如果仅仅用选择出来的样本添加到训练集中，会引起over-fitting.原因：因为更新后的决策边界将是curly，以适应模糊边界的图像。因此作者提出AS:

聚集pixel space里面同样class的图像，成为2*2的图，如图2.这样的concanate提供了更加丰富的特征同时增加了鲁棒性，减少了intra class的偏移。
将aggregate的图像resize到原始大小，label就是这几个同样class的图的label。
使用了CNN最后fc层的输出+t-SNE，能够降维到pixel space