多示例的学习研究路径——给新入门的弟子们

ypandam

已于 2022-04-12 15:38:08 修改

阅读量2.3k

点赞数 5

分类专栏：多示例学习的方法与建议文章标签：机器学习 python

于 2022-04-08 20:19:02 首次发布

本文链接：https://blog.csdn.net/ypandam/article/details/124037685

版权

多示例学习的方法与建议专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1 入门的基本学习路径

在这里插入图片描述

图1 学习基本路径

2 学习多示例的基本概念和基础认知

作为完全的新手，推荐先去维基百度等看看多示例的简介，再去CSDN等地方阅读一些多示例的综述博客。
总体认知：多示例学习是一种处理称之为包的学习范式，每个包由多个对象组成，一个包对应一个标签，实例通常不含标签，如下图 (b)。

在这里插入图片描述

图2 处理对象的分类
小提示：此处主要说分类，因为回归啥的大同小易

3 学习多示例的素材与建议步骤

一般而言，从泛读综述性论文或者书籍开始了解一个方向，是不错的选择；然后锁定1-2个方向，精读两篇代表性论文。

3.1 综述性论文

推荐1：Multiple instance learning foundations and algorithms，其囊括了16年以前关于多示例学习的发展历程、应用领域、前沿算法、实验手段等，其封面如下：
在这里插入图片描述
小提示：这本书的原版是收费滴，请自行找资源下载。
推荐2：本人小团队大师兄的综述（团队各位持续更新）。
我的弟子可以联系我要以上综述。
使用建议：主要当作手册之类的，当然你如果能在一个月内快速翻阅，对你的帮助无疑是巨大的。

3.2 不同方向的多示例算法入门推荐

简单地将多示例算法分为两类，则：
1）传统的MIL算法：分析数据的结构，设计一套优化方法之类的，包括：基于实例、基于包、基于嵌入等分析方法。本小组目前的研究重点在此，但后续准备向其他方向延展。
2）基于网络的MIL算法：利用神经网络开展深度学习
基于以上两类算法，都可以拓展到：多视图多示例、多示例多标签等场景。

3.2.1 基于实例的方法

看学习伙伴那本书，说的很清楚。

3.2.2 基于包的方法

入门文章：Multi-instance learning by treating instances as non-I.I.D. samples
小提示：读原文、记笔记。
进阶文章：Isolation set-kernel and its application to multi-instance learning
这一篇提了一个距离度量，后续的处理方法仍是基于嵌入。该文难度较大，读不懂可以先跳过。

3.2.3 基于嵌入的方法

开山之作：Multi-instance clustering with applications to multi-instance prediction
进阶文章：Multi-instance learning with discriminative bag mapping

3.2.4 网络方法

建议，初入门者先具有传统多示例的一点基础后（复现过1-2篇传统多示例算法的代码后），再看网络的处理方法，理解更透一些。
在此且推荐两篇：
注意力机制：Attention-based deep multiple instance learning
损失注意力：Loss-based attention for deep multiple instance learning

3.3 其他文献

3.3.1 多示例方向大佬的主页

如：周志华老师：http://129.211.169.156/publication/index.html?authors=Zhi-Hua%20Zhou

3.3.2 数学基础、机器学习算法及程序基础、论文撰写建议看完闵老师博客

https://blog.csdn.net/minfanphd?type=blog
小提示：入门的同学，除我推荐的数学基础、论文撰写、日撸java代码300行系列外，其他的要根据自己的基础来，不是所有的东西都一下能看懂。

3.3.3 参考书籍

1）西瓜书——《机器学习》作者周志华
2）机器学习实战
3）Pytorch中文教程。
当然这些的前提是你对python有一定的基础，而学基础，就自己找资料吧！
另外，以上书籍都不适合拿着从第一页慢慢看到最后一页，然后一年过去了。建议是：翻阅并做快速了解，然后着重查看自己需要用的部分。
而自己需要用的部分，通常是前面在精度论文、复现论文、实验的时候可能用碰上的，到时候再倒回来精度。

3.3.4 下载论文文献

1）google学术：怎么用问问师兄师姐们
2）文献阅读建议：读完3.1 和3.2提到的文献之外，需要在你研究的方向查阅更多文献，再阅读，不要什么都想去下，结果一样不想看就不好了。
3）在自己的研究方向的文献中，建议先读顶刊、顶会和高被引，再逐层下去，毕竟通常情况下：级别越高、被引越多的文献，除了创新性等以外，在论文本身的严谨性、描述方式、句子描述等方面，还是有质量排序的，对你后续自己写论文的导向更正更红。

小提示：顶刊顶会的级别查阅主要有两个
1）微信公众号：中科院文献情报分区表。 SCI-1区~4区就是这个分出来的
2）CCF分类目录。即CCF-A/B/C会、A/B/C类期刊是中国计算机学会分出来的，自己可以下，我们团队群里也有；找不到问师兄或者我要一个吧；
3）在google学术等查文献，也是可以设置年份、被引等检索域的，这个请教下咋们团队的师兄师姐即可。

4 文献泛读、精读与代码复现的建议

1）前面1-3点提到的，建议先采用泛读；

2）泛读完成后，选择1-2个方向的论文文献来精读；

3）无论是泛读或精度，都养成定期写进展报告（或者叫笔记吧）的好习惯；

4）先读摘要，记录下别人的要点，如背景、拟解决问题、手段等。

5）引入和相关工作，是致敬大佬的，除了前期了解的时候和写论文的时候，大部分时间可以直接跳过。

6）算法部分是文章的精华，所包含的一些技术甚至可以转换为自己学习的武器。尤其在准备复现这篇文章时，需要细致研读。
小提示：别人画的图需要学习下，方便以后自己画的时候用。

7）实验：重点看并记录别人的实验手段、实验数据、对比算法。

4.1 泛读说明

对于泛读的笔记，着重于记录文献的基本信息（即Bib，方便以后引用能快速找到）、摘要（这篇文献做了什么）、文中的开局一张图且能够根据图说明这篇文献的技术路线、实验所使用的数据集、实验手段和对比的算法。

4.2 精读说明

对于精度的笔记，除4.1中提到的外，还应着清晰重复述原文献的算法部分；研究其源码；比对算法和源码，彻底理解算法；复现其算法，测试程序、比对试验结果。

小提示：笔记均尽量写清楚一个算法的why 、 what、 how。只是泛读和精度笔记的how简单或详细的问题。

4.3 读更多文献的顺序

按照图1的分类、可以根据时间先后顺序排列后阅读，同时把每篇文章记录下来（泛读or精读的选择，此时的你最了解你自己了，自定即可），建议一周至少一篇。

5 资源库

5.1 数据集

大师兄的博客：https://blog.csdn.net/weixin_44575152/article/details/104769348

5.2 代码

暂时用大师兄的Github：https://github.com/InkiInki
需持续整理。

6 代码能力

你前期有任何的代码基础，都是你的资本，毕竟程序思想、不同语言是相通的。
不过，在机器学习领域，你需要精通的是：
1）精通Python：实验快；
2）精通：java或C++之一，真正学习和理解算法思想

7 学习路线图总结

在这里插入图片描述
特别鸣谢：@「因吉」大师兄的贡献.
本文也是在CSDN博主「因吉」的原创文章：https://blog.csdn.net/weixin_44575152/article/details/123296800基础上，做的进一步修改和完善。

ypandam

关注

5
点赞
踩
31

收藏

觉得还不错? 一键收藏
1
评论
多示例的学习研究路径——给新入门的弟子们

文章目录1 基本学习路径1 基础认知1 基本学习路径1 基础认知作为完全的新手，推荐先去维基百度看看多示例的简介，再去CSDN等地方阅读一些多示例的综述博客，有一个总体的认知：即多示例是一种处理称之为包的学习范式，每个包由多个对象组成，一个包对应一个标签，实例通常不含标签，如下图 (b)。小提示：主要说分类，因为回归啥的大同小易，当然我也没有专门去搞。2 学习伙伴一般而言，综述性论文或者书籍是学习一个方向的好伙伴，这里推荐一本书：Multiple instance learning fo
复制链接

扫一扫