陈序袁-CSDN博客

原创【论文阅读】Interventional Bag Multi-Instance Learning On Whole-Slide Pathological Images

多示例学习是解决千兆像素分辨力和幻灯片级别标签的全幻灯片病理图像（whole-slide pathological images , WSIs）的有效工具。以往的主流MIL方法主要关注改进特征提取器以及聚合器。包的上下文先验(contextual prior)可能会影响模型捕捉包与标签之间的虚假相关性(spurious correlations)。该缺陷是限制现有MIL方法性能的混杂因素。本文提出了新的方案：介入式的包多示例学习(Interventional Bag Multi-Instance。

2023-11-06 15:10:38 475

原创【论文阅读】Multiple‑instance learning via multiple‑point concept based instance selection

在本文中，我们提出了由一组相似点联合表示的多点概念的概念，然后基于多点概念构建了MIL的迭代实例选择方法。因此，该算法被命名为MILMPC，其与其他MIL算法的主要区别在于通过多点概念而不是单点概念来选择实例。在五个数据集上的实验结果验证了迭代实例选择方法的收敛性，以及由此产生的MIL模型的通用性，因为它在三种不同的相关性评估标准（用于测量候选概念与目标的相关性）下始终表现良好。此外，与其他MIL算法相比，该模型不仅适用于常见的MIL问题，而且更适用于混合问题。

2023-06-16 16:37:40 203 1

原创【论文阅读】Attention-based Deep Multiple Instance Learning

本文提出了一种基于神经网络的置换不变聚合算子，该算子与注意力机制相关。值得注意的是，所提出的基于注意力算子的应用提供了每个实例对包标签贡献的观察。实现表明本方法在基准MIL数据集上有着很好的性能。本文提出的新方法旨在将可解释性纳入MIL方法中，并增加其灵活性。利用包标签的伯努利分布建立MIL模型，并通过优化对数似然函数对模型进行训练。将实例从高维度到低维度的转换；置换不变聚合函数；对包概率的转换；

2023-06-05 11:32:53 721

原创【深度学习】第六阶段

调试超参数，在不知道哪个超参数最为重要时，建议使用随机值进行探测。两种不同的超参数训练方式，左边的为只关注一个模型的参数对训练的影响，而右边的为同时关注多个模型的影响。若发现有一点的参数效果较好，那么可以在它的附近范围内进行尝试，看是否能找到效果更好的参数点。、神经网络层数、每层的结点数量、小样本数据集大小、学习率衰减的参数等等。假如输入的是一张图片，那么输出的向量就代表该图片类别的预测概率。在深度学习中，有各种各样的超参数，其中包括：学习率。计算每个节点的占比，得到预测的概率。

2023-04-20 16:46:44 451

原创【论文阅读】MAMIL

本文提出了基于多注意力的MIL问题求解方法，该方法考虑了包中每个被分析实例的相邻实例。在该方法中，一个注意力模块考虑相邻的实例，使用几个注意力机制来获得实例的不同特征表示，并使用一个注意力模块来联合不同的实例特征表示，提供每个实例和整个包的准确分类。MAMIL以小维度嵌入的形式实现了实例及其邻居的组合表示，以达到简单分类的目的。此外，算法也有效处理了不同类型的实例，使用几个注意力机制模块来实现包中实例的不同特征表示。

2023-04-13 16:17:43 424 2

原创【论文阅读】Robust Multi-Instance Learning with Stable Instances

以往的MIL算法遵循i.i.d假设：训练样本与测试样本都分别来自于同一分布中，而这一假设往往与现实应用中有所出入。研究人员通过计算训练样本与测试样本之间的密度比对训练样本进行加权，以解决分布变化带来的问题。分布的变化发生的原因有许多，诸如：训练数据与测试数据是在不同的时间或不同的地点收集的。当分布发生变化时，由于无法区分因果实例与噪声实例，算法的性能会发生改变。当训练集与测试集分布不同时，噪音实例和标签之间的关联性将不一致。

2023-03-08 15:39:30 401 1

原创【论文写作】课程总结

《论文写作》不仅是本人认为的在本学期收获较大的一门，也是最重要的课程之一。因为作为研究生，论文是必不可少的一部分。论文是就自己研究方向中所得到的成果的一种呈现方式。论文写作不是一件简单的事情，但是只要了解了其中的“规矩”，逐渐熟悉直到熟练，我相信论文写作也不是一件难事。毕竟论文中自己的成果才是重头戏，论文只是内容的载体，是为了各个方向的学者能够看懂你写的内容，能够懂你想表达的意思，能够了解你研究的方向。课程的内容都是干货，没什么口水话。直接了当，跟着每一条规矩来写就完事了。

2022-12-13 18:18:57 545

原创【论文阅读】MDK与MILDM

提出了一种基于映射的鉴别核函数（Mapping-based Discriminative Kernel，MDK），用于更好地区分正负包。首先，通过同时考虑包空间的局部性、包的辨别性能力以及包的代表性，构建了一个判别和代表包池（Discriminative and Representative bag Pool，DRP）。其中，局部性与代表性用于探索实例之间的关系，而判别性能力在挖掘标签信息的过程中使用。第二，基于DRP将所有的包映射到基于DRP的判别性特征空间中。

2022-11-09 10:37:03 295 1

原创【论文阅读】Scalable Algorithms for Multi-Instance Learning

当前大多数的多示例学习算法只能处理小型或中型规模的数据，为了能够处理大规模数据的多示例学习问题，本文提出了基于局部聚合描述符向量表示的多示例学习算法miVLAD以及基于Fisher向量表示的多示例学习算法miFV。这两个算法通过相应的映射函数将包映射为新的向量，并且保留了重要的包级信息。实验表明，miVLAD与miFV不仅实现了高准确率，而且提高了执行速度。

2022-10-29 19:51:31 206 1

原创【论文阅读】Towards Certified Robustness of Distance Metric Learning

将相似实例拉到一起，将不相似的实例分隔开。本文提出在输入数据集空间中引入对抗间隔（adversarial margin）以提高度量学习算法的泛化性（指机器学习算法对新鲜样本的适应能力）与鲁棒性。对抗间距为实例与离其最近的不同类别的实例之间的距离。它不仅考虑了特征空间中实例间距离，也考虑了metric与之间的关联。为了增强对实例扰动（instance perturbation）的鲁棒性，可以通过增大对抗间隔来实现。最后，利用算法鲁棒性的理论技术证实了增大对抗间隔有利于提高泛化能力。

2022-10-25 17:26:00 442 3

原创多示例学习回顾

当找到的代表实例是**虚拟**的时候，两个包的相似度就可以通过计算两个代表实例之间的距离来度量。在嵌入方面，Bamic通过计算每个包与k个中心的距离，将包映射为k维的特征向量，每一维都是该包与第k个中心的间距。由于距离能够计算包与包的特征值之间的关系，而包的特征值往往能够代表这个包的类别、性质。在代表实例选择阶段，则依旧沿用了SMDP中的思想来选出实例原型中的代表实例。，也就是代表包集合，与其他包差别大的包。，因此计算每个包与中心的距离就能够体现每个包的所属特征，就能够对该包的向量进行预测。

2022-10-16 12:37:57 1005 1

原创【力扣刷题】二叉搜索树的最近公共祖先

百度百科中最近公共祖先的定义为：“对于有根树 T 的两个结点 p、q，最近公共祖先表示为一个结点 x，满足 x 是 p、q 的祖先且 x 的深度尽可能大（一个节点也可以是它自己的祖先）。得到两个点的路径后，从路径的开始进行对比，找到最深入的一个祖先。例如，给定如下二叉搜索树: root = [6,2,8,0,4,7,9,null,null,3,5]给定一个二叉搜索树, 找到该树中两个指定节点的最近公共祖先。但是既然给了，就应该利用。当然，如果不加上二叉搜索树，就可以利用。的特性来找到最近的公共祖先。

2022-10-12 19:14:24 310

原创【力扣刷题】二叉树的后序遍历

给你一棵二叉树的根节点 root ，返回其节点值的后序遍历。这个题的递归算法已掌握，还需要掌握迭代的。145.二叉树的后序遍历。

2022-10-11 21:15:57 463

原创【力扣刷题】仅执行一次字符串交换能否使两个字符串相等

给你长度相等的两个字符串 s1 和 s2。一次字符串交换操作的步骤如下：选出某个字符串中的两个下标（不必不同），并交换这两个下标所对应的字符。一开始以为要用分治法，来递归一下，差点要大改代码。其实只要避免重复交换就可以了，需要一个列表来标记交换过的位置。其实就是像看到的那样，用。如果对其中一个字符串执行最多一次字符串交换就可以使两个字符串相等，返回 true；否则，返回 false。1790.仅执行一次字符串交换能否使两个字符串相等。一次循环找过去就行了。

2022-10-11 16:23:47 101

原创【力扣刷题】括号的分数

AB 得 A + B 分，其中 A 和 B 是平衡括号字符串。(A) 得 2 * A 分，其中 A 是平衡括号字符串。

2022-10-11 13:43:29 100

原创【论文阅读】Multi-Instance Learning by Treating Instances As Non-I.I.D. Samples (MIGraph & miGraph2009)

常规的多示例研究方式通常为很少考虑包内实例之间的关系，因为在实际情况中包内的实例几乎很少出现相互独立的关系。因此，若以non I.ID的方式（利实例之间的关系）来处理实例能够获得更好的性能。本文提出两种算法MIGraph与miGraph。前者显式的将每个包映射到一个无向图中，并设计一个图核来区分正负包；后者通过推导亲和矩阵隐式构造图，并提出一个考虑团信息的高效图核。首先引入常规处理方式与本文的处理方式间的区别：如图所示，每一张图片对应一个包，图片中的每一个小方框对应一个实例。每个包有6个实例，

2022-10-05 10:24:59 323 1

原创【力扣刷题】使括号有效的最少添加

只需要在普通的括号匹配代码上稍作修改即可。由于Python并不支持swtich语句，就使用if-else语句。这个题是每日一题随机抽中的，很明显是考察。问题的相关知识，也就是。

2022-10-04 20:00:39 638

原创【力扣刷题】二叉树展开为链表

先序遍历是肯定需要的，先序遍历又分为递归与迭代。先使用递归或迭代来求得先序遍历节点集合。

2022-10-03 15:37:36 281

原创【力扣刷题】打家劫舍

找到它相邻的数值组成最高金额。但其实是有很多漏洞的，无法通过所有测试用例。明显是动态规划类题目，直接入手做很容易碰壁。因为每一步都是有规律的，因此可以通过。利用数组来记录每一步的最高金额。

2022-10-02 21:02:43 782

原创【力扣刷题】二叉树的右视图

这个算法就是层序遍历的变种，可以参考。只是加上了筛选而已。

2022-10-02 15:54:09 160

原创【力扣刷题】在LR字符串中交换相邻字符

对比相同字符的相对位置。但是依然有个别测试用例无法通过，即：前后有两个L或R的情况。当然，这一部分也是非常有必要的，可以加入到整体算法中作为检查特例的一部分。我的这个答案写的确实挺丑的，也花了一些时间来调试、填坑。想追求时间与空间，但实力不允许，还需要多学习、多刷题。后与end进行比较。这种方法我尝试了从前往后、从后往前等等方法，都没能实现。这种方法是可行的，但是在遇到一些特别的测试用例时无法通过，因此就需要上面那个部分了。L与R就表示L只能往左转，R只能往右转。即：XL→LX，RX→XR。

2022-10-02 13:13:11 356

原创【力扣刷题】验证二叉搜索树

并对比结果与排序后的结果是否一致来达到验证的效果。虽然通过了测试用例，但是用时惨不忍睹。确实是缺乏经验，需要多刷题来弥补自身短板。一开始拿到这道题以为很简单，就直接递归。来判断，无奈能力有限，以失败告终。先通过之后再在参考答案中学习。①如何避免右子树存在比根节点小或者相等的节点；②如何避免左子树存在比根节点大或者相等的节点；刚开始尝试使用递归加上。后来就尝试迭代，通过。

2022-10-01 18:12:11 372

原创【力扣刷题】重新格式化电话号码

本来想着能够尽可能的减少空间消耗，但是无奈能力有限，只能通过笨办法for把答案输出了。①最后一个位置不能加‘-’；②注意字符串数字较短的情况；

2022-10-01 11:07:38 469

原创【力扣刷题】二叉树的锯齿形层序遍历

其实本身不难，就是层序遍历加了个reverse函数。

2022-09-30 17:36:32 179

原创【力扣刷题】无重叠区间

【代码】【力扣刷题】无重叠区间。

2022-09-30 16:53:34 76

原创【力扣刷题】面试题 01.08. 零矩阵

我的答案在一些细节上还需要改进，代码写的不够简洁、漂亮。但大致思路与标准答案相同，都为标记后在原地修改matrix。刚开始就先不追求时间空间了，先通过再说。

2022-09-30 10:22:09 125

原创【力扣刷题】最长公共前缀

【代码】【力扣刷题】最长公共前缀。

2022-09-28 15:55:43 50

原创【代码复现】BAMIC

此部分主要是实现KMediods算法。该部分继承了Clustering类。变量包括：距离矩阵、索引、聚类中心个数、最大迭代次数。此部分主要为聚类初始化函数，包含了：距离矩阵、索引、实例个数、聚类中心、簇、标签、最大距离、平均距离。此部分主要功能为映射：计算每个包与第i个聚类中心的距离，将每个包映射为一个特征向量。一些基础的MIL以及距离度量算法代码就不再赘述了。KMediods算法大体与KMeans算法类似，最大区别在于。这一部分的距离处理较为复杂一些。

2022-09-27 13:53:54 420

原创【力扣刷题】判定是否互为字符重排

这个题比较好入手，直接选用暴力求解法，一些细节有点类似于摩尔投票，但空间消耗较大。

2022-09-27 13:04:34 43

原创【力扣刷题】主要元素

利用正常算法（如：空间换时间）是无法达到时间复杂度为 O(N) 、空间复杂度为 O(1) 的，因此需要另选方法。满足解决该问题要求的算法为。

2022-09-26 20:58:38 113

原创【力扣刷题】回文数

【代码】【力扣刷题】回文数。

2022-09-26 17:36:09 96

原创【论文阅读】BAMIC

为了弥补无标签包的无监督多示例学习问题的研究缺口，而提出了一种针对无监督多示例学习问题的多示例聚类算法BAMIC。通过将包视为原子数据项，采用k-MEDOIDS算法将无标签的包划分为k组无关联的包，其本质就是在包范式中进行聚类处理。除此之外，基于聚类结果，作者还提出了一种多示例预测算法BARTMIP：首先，将每个包用k维特征向量进行表示，而第i个特征值是该包与第i个聚类中心间的距离，每个特征向量的标签与原始的标签一致。进而能够使常规的有监督模型在转换后的特征向量上进行学习。

2022-09-19 17:44:15 455 1

原创【论文阅读】Multiple instance classification: Review, taxonomy and comparative study

本文对MIC（Multiple Instance Classifification）算法进行了分析与分类，并进行了详尽的比较分析。具体包括：1）通过例子详细阐述了使用MIC的必要性；2）描述了MIC问题以及所提出的分类算法；3）描述了分类算法的主要范式：实例空间范式、包空间范式和嵌入空间范式；4）比较分析并给出结论。常见包级分类是估计一个分类函数F(X)∈[0,1]F(X)∈[0,1]F(X)∈[0,1]来预测一个包是正是负；同时还有实例集分类。

2022-09-13 15:29:06 536

原创【数学建模】论文正文撰写

将具体问题抽象为数学模型的桥梁，反映了对问题的认识程度，体现了解决问题的初始，即。：题目给出一定的数据或条件，建立客观的指标体系，选择合适的模型进行评价。：在现有的资料基础上，预测事物的一些未知属性或已知属性未来的发展趋势等。等，每一类在建模时有不同的表现形式，所对应选择的模型也不尽相同。，用于题目中给出了数据的情况下，即：假设数据的可靠性、真实性；对建模过程中的主要变量进行描述，方便评审老师阅读论文。对于问题的求解，无法考虑的面面俱到。，起承上启下的作用，反映了建模者的综合水平。

2022-09-04 17:36:25 936

原创【数学建模】摘要写作要点

论文题目应涵盖论文研究的主要对象或研究内容以及所采用的主要研究方法。简短、精炼、一目了然、二十字以内。基于XXX模型/方法/理论的XXX问题研究。如：基于梯度下降的决策树算法与非线性规划的信贷风险评估与信贷策略模型摘要非常关键，应具有独立性和代表性。即：拥有与文献同等量的主要信息，即不阅读全文，就能获得必要的信息。主要包括：摘要在评审中占有一定的比重，要重视。摘要内容应力求全面、完整地反映论文的研究成果。摘要首先应该明确研究的是什么问题，采用了什么数学方法，建立了什么样的求解问题的数学模型。

2022-09-03 18:47:58 2071

原创【论文阅读】DSMIL

该算法介绍了如何解决幻灯片图像（whole slide image，WSI）分类问题。由于WSI具有非常高的分辨率且缺乏注释，因此WSI分类问题具有一定的挑战性。当只有幻灯片级别的标签可用时，WSI分类问题才可以作为多示例学习问题。本文提出一种基于MIL的WSI分类和肿瘤检测算法，算法由三个主要组成部分：首先，引入一个新的MIL聚合器（aggregator），该聚合器能通过可训练的距离度量方法对双流架构（dual-stream architecture）中实例的关系进行建模；......

2022-08-29 15:16:37 1561

原创【代码复现】ELDB

本文是论文《Multi-Instance Ensemble Learning With Discriminative Bags》中算法代码的复现。距离度量文件，提供了一些距离度量函数，包括：欧氏距离、平均豪斯多夫距离。用来测量包与包之间的相似度。本文件提供一些工具函数，诸如：交叉验证、打印进度条、获取分类性能度量等。这一部分为多示例学习的原型文件，用于获取数据集名词、包空间、包大小等。ELDB算法主类，主要包括ELDB算法初始化、映射、记录得分等。本文件调用分类器，对多示例向量进行分类。...

2022-08-10 15:43:12 495

原创【论文阅读】Multi-Instance Ensemble Learning With Discriminative Bags

由于标签是基于包给出的，多示例学习（MIL）比传统的监督学习更具一般性和挑战性。当前流行的特征映射方法是将每个包转化为新特征空间中的一个实例，但大多数映射方法难以保持包的区分度。为了解决这一问题，本文提出了基于判别包的多示例集成学习算法（multi-instance ensemble learning with discriminative bags，ELDB），该算法通过两部分得到一个判别性包集（dBagSet）。首先，考虑数据的空间分布与标签分布。...............

2022-08-03 11:40:07 299 2

原创【代码复现】MIDIE

本文主要是论文《Two-stage instance selection and adaptive bag mapping algorithm for multi-instance learning》中算法代码的复现。具体算法原理见此文。本文与SMDP有类似之处，都使用了DP聚类。这一部分代码是创建实例原型池，即：找出所有包的代表实例聚集在一起。此阶段为在包内选取实例原型。2.2 SDI.py这段代码主要是进行第二阶段：在实例原型池中选出代表实例。先要通过DIP得到实例原型池，再通过DP来选出代表实例。

2022-06-29 15:23:25 893 2

原创【代码复现】SMDP

关于密度峰值聚类的半监督多示例学习（semi-supervised multi-instance learning,SMDP）的具体介绍在这一篇中已经有了详细的介绍。代码的关键部分也是与论文中一一对应的。这一部分主要是一些基本操作，其中包括了：加载数据集、获取训练集与测试集的索引。2.2 DP_TWT.py这一部分主要是进行Density peaks(DP) clustering algorithm方法的设置，具体原理见本文。这一段代码的关键就在于找到实例密度ρ\rhoρ以及实例到其master的距离δ

2022-06-29 11:48:50 822

空空如也

空空如也