机器学习
文章平均质量分 78
机器学习
不易撞的网名
...
展开
-
什么是多模态谱聚类(MMSC)
多模态谱聚类(Multi-modal Spectral Clustering, MMSC)是一种处理具有多个表示或视图的数据集的聚类方法。它旨在通过融合不同模态或视图下的互补信息来提高聚类性能。MMSC的核心在于构建一个综合所有视图信息的拉普拉斯矩阵,并在此基础上执行谱聚类,以得到最终的聚类结果。具体来说,MMSC通过最小化每个视图的谱聚类误差和最小化多模态聚类的标签矩阵与每个视图的标签矩阵之间的距离来优化目标函数。原创 2024-06-16 16:08:27 · 741 阅读 · 0 评论 -
鲁棒多视图谱聚类(Robust Multi-view Spectral Clustering, RMSC)
RMSC通过上述步骤,不仅融合了多视图信息,还通过鲁棒处理提高了对噪声的容忍度,使得聚类结果更加可靠。尽管具体实现细节(如如何精确地进行鲁棒低秩矩阵恢复、如何优化权重分配等)可能根据实际情况有所调整,但上述框架概括了RMSC的基本思路和流程。原创 2024-06-14 22:30:43 · 853 阅读 · 0 评论 -
归一化拉普拉斯矩阵
对于无向图,节点的度是指与其相连的边的数量。可以通过对 ( A ) 的每一行求和得到每个节点的度数。,旨在强调图的结构特性,并在图的谱分析、尤其是图卷积网络(GCNs)等机器学习应用中扮演关键角色。归一化拉普拉斯矩阵是图谱论中的一种重要矩阵表示方法,主要用于处理图结构的数据。这在某些场景下,如随机游走相关的算法和网络分析中更为适用。且具有更好的数值属性,特别是在谱分析和谱图分区中。,最后利用这些矩阵计算并打印出了对称归一化拉普拉斯矩阵。是未归一化的拉普拉斯矩阵,是未归一化的拉普拉斯矩阵。原创 2024-06-14 21:09:07 · 1068 阅读 · 0 评论 -
共同正则化谱聚类 (Co-Reg)
共同正则化谱聚类通过迭代优化不同视图下的特征向量,促使不同视图间的信息相互补充,最终基于优化后的特征表示进行聚类,以达到更准确的聚类效果。在实际操作中,还需考虑如何有效选择 λ 值和初始化策略,以及确定合适的停止准则。原创 2024-06-14 20:45:17 · 668 阅读 · 0 评论 -
什么是矩阵变换?
矩阵加法和减法:这是最基本的线性运算,直接对应元素相加或相减。例子给定矩阵Aabcd和Befgh,则ABaebfcgdh给定矩阵 A=\begin{pmatrix}a & b\\c & d\end{pmatrix} 和 B=\begin{pmatrix}e & f\\g & h\end{pmatrix},则 A+B=\begin{pmatrix}a+e & b+f\\c+g & d+h\end{pmatrix}给定矩阵Aacbd和Be。原创 2024-06-12 17:48:20 · 732 阅读 · 0 评论 -
拉格朗日乘子和拉格朗日函数
这个例子展示了如何使用拉格朗日乘子法解决一个具有等式约束的优化问题。在实际应用中,如机器学习的正则化问题、经济学中的效用最大化问题等,拉格朗日乘子法同样适用,只不过涉及的函数和约束可能更为复杂。λ 是一个或一组参数,用于量化违反约束的程度。在优化过程中,拉格朗日乘子反映了约束条件的重要性,它。的强大技术,特别是在目标函数和约束条件都是光滑的情况下特别有效。L(x, λ) 是将原目标函数 (f(x)) 和所有约束条件整合在一起的。:拉格朗日函数的关键作用在于,它允许我们。是对应的拉格朗日乘数。原创 2024-06-12 16:56:23 · 578 阅读 · 0 评论 -
非齐次线性最小二乘
非齐次线性最小二乘问题是线性代数中一种重要的优化问题,用于寻找一组最接近给定数据的线性模型参数。当模型预测值与实际观测值之间存在误差,且模型是线性的,但观测值并不完全满足模型时,就使用非齐次线性最小二乘法。其目标是最小化模型预测值与实际观测值之间的残差平方和。Axb其中,(A) 是一个 (m *n) 的矩阵((m > n)),表示观测数据与未知参数之间的关系;(x) 是一个 (n *1) 的向量,包含我们想要估计的未知参数;(b) 是一个 (m *1) 的向量,代表实际观测值。原创 2024-06-12 16:29:18 · 731 阅读 · 0 评论 -
线性最小二乘问题
线性最小二乘问题是数学和统计学中一个常见的优化问题,其目标是在一组线性方程没有精确解的情况下,找到一组解,使得模型预测值与实际观测值之间的误差平方和最小。Axb其中 (A) 是一个 m * n 的矩阵,(x) 是一个 n*1 的未知向量,而 (b) 是一个 m * 1 的已知向量。当 (m > n) 并且 (A) 不是满秩时(即 (rank(A) < m)),该系统通常没有精确解。线性最小二乘法寻找的是xmin∣∣b−Ax∣∣2假设我们要通过一组观测数据点来拟合一条直线。原创 2024-06-11 18:27:32 · 423 阅读 · 0 评论 -
奇异值分解(SVD)
通过仅保留最大的几个奇异值及其对应的左、右奇异向量,可以对原始数据进行有效压缩,去除噪声,实现数据的低秩近似表示,这对于图像和视频压缩、文本分析等领域非常有用。:SVD可以帮助识别数据中的主要模式和结构,特别是在高维数据集中,通过降低数据的维度,使得数据更容易理解和可视化,同时保留数据的主要特征。:在图像处理领域,SVD可以用来分离图像中的不同特征,通过移除较小的奇异值对应的分量,可以去除图像中的噪声,实现图像去噪和增强。的重要线性代数技术。个额外的零特征值,对应的特征向量可自由选择,但通常选择使得。原创 2024-06-11 17:44:18 · 1073 阅读 · 0 评论 -
子空间学习
我们将使用主成分分析(PCA)分别在两个视图上进行降维,然后通过简单拼接的方式融合这两个视图的特征,最后使用线性判别分析(LDA)进行分类。原创 2024-06-10 16:09:38 · 649 阅读 · 0 评论 -
极限学习机
由于直接计算涉及大量具体数值,这里仅展示概念性步骤,实际数值运算通常需要借助编程语言(如Python)和相应的数学库(如NumPy)完成。当然,让我们更深入地探讨极限学习机(ELM)的工作原理,并涉及一些基本公式。:尽管其权重初始化是随机的,但研究表明,在很多情况下ELM仍能展现出良好的。首先,我们需要整理数据,并将其转换为方便计算的格式。是偏置项,它们都是随机初始化的,并且在学习过程中保持不变。请注意,上述代码仅为示例,实际应用中还需考虑更多因素,如。,即在未见过的数据上也能做出准确的预测或分类。原创 2024-06-09 23:34:55 · 609 阅读 · 0 评论 -
聚类评估:轮廓系数(Silhouette Coefficient )
Ci 的所有样本的平均距离 bij,称为样本i 与簇 Ci 的不相似度。定义为样本 i 的簇间不相似度:bi=min{bi1, bi2, …其他样本的平均距离ai。ai 越小,说明样本 i 越应该被聚类到该簇。将 ai 称为样木 i 的簇内不相似度。若 si 近似为0,则说明样本 i 在两个簇的边界上。si 接近-1,则说明样本 i 更应该分类到另外的簇。si 接近1,则说明样本 i 聚类合理。原创 2024-06-08 17:22:28 · 641 阅读 · 0 评论 -
K-means聚类实验
【代码】K-means聚类实验。原创 2024-06-08 17:10:20 · 215 阅读 · 0 评论 -
DBSCAN算法
的,则称从q0到qk密度可达,这实际上是直接密度可达的“传播“MinPts:k-距离中k的值,一般取的小一些,多次尝试。达到算法设定的值则其为核心点。(即r邻域内点的数量。密度可达:若有一个点的序列q0、q1、……密度相连:若从某核心点p出发,点q和点k都是。半径ε ,可以根据K距离来设定:找突变点。,从任何一个核心点出发都是密度不可达的。ε -邻域的距离阈值:设定的半径。,则称点q和点k是密度相连的。直接密度可达:若某点p。边界点:属于某一个类的。核心对象:若某个点的。原创 2024-06-08 15:53:43 · 395 阅读 · 0 评论 -
K-means算法
表示每个点到中心点的距离(期望。无监督问题:我们手里没有标签。要得到簇的个数,需要指定K值。聚类:相似的东西分到一组。难点:如何评估,如何调参。,即向量各维取平均即可。原创 2024-06-08 15:29:46 · 733 阅读 · 0 评论 -
什么是层次聚类?
基于层次的聚类算法(HierarchicalCustering)可以是凝聚的(Agglomerative)或者分裂的(Diisve),取决于层次的划分是"自底向上"还是"自项向下”。直观来看,上图中展示的数据划分为2个簇或4个簇都是合理的,甚至,如果上面每一个圈的内部包含的是大量数据形成的数据集,那么也许分成16个簇才是所需要的。并再次计算其他数据点间的距离。在聚类树中,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点。后面的工作就是不断的重复计算数据点与数据点,数据点与组合数据点间的距离。原创 2024-06-08 14:54:52 · 868 阅读 · 0 评论 -
质量相关分析
质量相关分析原创 2024-06-07 18:13:36 · 1009 阅读 · 0 评论 -
肯德尔和谐系数(Kendall)
肯德尔和谐系数(Kendall)原创 2024-06-07 16:42:59 · 548 阅读 · 0 评论 -
Z检验和t检验
接下来,我们需要查找标准正态分布表或使用统计软件/计算器找到Z值为-2.88时对应的累积概率,从而得到右侧尾部的概率,因为是双侧检验,所以P值应该是两侧之和的一半。:将计算出的t值与t分布表中的临界值比较,或者计算p值,如果p值小于显著性水平(如α=0.05),则拒绝H0,认为样本均值与总体均值之间存在显著差异。在这个例子中,P值=0.0038远小于0.05,所以我们有足够的证据拒绝零假设。:因为t值非常大,相应的p值会极小,远远小于α=0.05,我们强烈拒绝H0,表明治疗确实引起了血压的显著下降。原创 2024-06-07 16:00:00 · 1071 阅读 · 0 评论 -
Pearson相关系数
假设我们有两组数据X和Y,分别代表两个变量的观测值,我们要计算它们之间的Pearson相关系数。的标准差时,通常会使用样本标准差的公式(即分母为n-1),这样做是为了给出一个对总体标准差更好的无偏估计。在二维空间中分布着一些数据,我们想知道数据点坐标X轴和Y轴的相关程度,如果X与Y的。如果一个变量增大,另一个变量却减小,表明它们之问是负相关的,相关系数小于0;当一个变量增大,另一个变量也增大时,表明它们之间是正相关的,相关系数大于0;在实际应用中,当计算的是从一个更大的群体中抽取的。原创 2024-06-07 15:05:33 · 1234 阅读 · 0 评论 -
什么是相关分析?
这个系数就是帮助衡量变量之前的。原创 2024-06-07 14:25:32 · 296 阅读 · 0 评论 -
什么是卡方检验?
卡方检验的分析过程可以分为几个步骤,并且根据检验的类型(如独立性检验、适合性检验等)会有所不同,但基本思路相似。,则拒绝零假设,认为观测数据与理论预期(两变量独立)之间存在显著差异,支持备择假设,即两个分类变量之间存在关联。,意味着我们观察到的数据与零假设预测的模式(即变量间无关联)之间的差异大到不太可能是由于随机抽样误差造成的。需要注意的是,在实际操作中,(有的标准放宽到期望频数总和的80%不小于5),以防止χ²分布的近似性失效。的计算也很重要,因为它决定了卡方分布的形状,从而影响到临界值的确定。原创 2024-06-06 18:23:23 · 752 阅读 · 0 评论 -
回归分析过程
相关分析是研究两个或两个以上的变量之间相关程度及大小的一种统计方法回归分析是用来寻找存在相关关系的变量之间的一个数学表达式也就是说,有些变量之间有着相关关系,但是他们的相关关系在之前一般用强弱或大小来评判,但是具体该怎么样进行一个衡量呢,有没有一个数学表达式能把这两个量连接在一起,这个就是回归分析回归分析的基本思想是通过观察到的数据点来确定一**条“最佳拟合线”**或更复杂的曲线,这条线能够最接近地代表自变量和因变量之间的关系。原创 2024-06-05 20:16:36 · 1194 阅读 · 0 评论 -
最小二乘法
最小二乘法(Least Squares Method)是一种数学优化技术,用于的模型参数,通常是在存在误差或者噪声的情况下,寻找数据点到模型曲线的。这种方法通过来实现,即模型参数的值,使得所有数据点到模型预测值之间的距离(通常是欧几里得距离)的平方和最小。最小二乘法广泛应用于统计学、工程学、经济学等领域,特别是在,用于建立因变量和一个或多个自变量之间的线性或非线性关系模型。原创 2024-06-04 18:16:29 · 1171 阅读 · 1 评论 -
什么是熵?
所有的概率值都是0-1之间,那么最终的H(X)必然也是一个正数!熵:物体内部的混乱程度。(一件事发生的不确定性)原创 2024-06-04 16:23:26 · 261 阅读 · 0 评论 -
什么是核函数?
看起来像是两个样本点之间的距离的度量。Linear核函数对数据不做任何变换。代表自然指数函数,即以实数。一般情况下2次的更常见。列向量(本质就是内积。代表空间中的某个向量。原创 2024-06-04 16:11:23 · 540 阅读 · 0 评论 -
SVD矩阵分解
规范正交基原创 2024-06-02 16:17:47 · 143 阅读 · 0 评论 -
规范正交基
规范正交基原创 2024-06-02 15:43:59 · 71 阅读 · 0 评论 -
矩阵内积、向量长度、正交
两向量内积等于0则正交。原创 2024-06-02 15:42:10 · 244 阅读 · 0 评论 -
自适应近邻图学习问题建模公式解析
整个目标函数是要找到一个最优的矩阵 s,使得样本点之间的距离平方之和尽可能小,同时类别列向量的 L1 范数尽可能大。这个公式通常用于聚类任务,特别是对于稀疏表示聚类(Sparse Representation Clustering, SRC)。个的列向量的相似性。这里求和的是所有样本点之间距离的平方。内容出处:《多视角数据聚类研究》,作者王浩。范数,也就是所有类别列向量的绝对值之和。这张图片展示的是一个数学公式,它是一个。这里求和的是所有类别列向量的。欧氏距离的计算公式,也就是。乘以其对应的相似性。原创 2024-06-01 15:48:59 · 870 阅读 · 0 评论 -
什么是欧氏距离(L2范数)?有何作用
这张图片展示的是欧氏距离的计算公式,它是衡量两个点之间距离的一种方式。反之,如果两个样本点之间的欧氏距离较大,说明这两个样本点较远,可能不属于同一类别。在聚类任务中,欧氏距离常被用作衡量样本点相似程度的一种指标。因此,欧氏距离常常被用作聚类算法中的距离度量标准之一。分别代表两个点的特征向量(或列向量,看情况而定)。在高维空间中,欧氏距离的计算方式类似,只需要。表示 L2 范数,也就是欧氏距离。例如,在二维平面上有两个点。原创 2024-06-01 15:36:24 · 577 阅读 · 0 评论 -
什么是鲁棒?
在计算机科学、工程、统计学、机器学习等领域中,“鲁棒性”(Robustness)通常指的是一个系统、算法、模型或方法在面对异常数据、噪声、错误、参数变化、恶意攻击等情况时。同样,鲁棒的特征学习和样本自适应方法能够更好地处理数据中的噪声和不确定性,使得模型在实际应用中表现更加强大。“鲁棒"这个词来源于英文"robust”,意为健壮的、强健的、坚韧的。例如,鲁棒的多核k-means算法(RMKKM)通过。在多视图机器学习的上下文中,鲁棒性意味着算法能够。简而言之,鲁棒性强意味着。原创 2024-06-01 14:58:34 · 231 阅读 · 0 评论 -
什么是矩阵的迹?
矩阵的迹(Trace)是指一个方阵主(即位于矩阵左上至右下对角线上的元素)。TrAi1∑naii其中,aii表示矩阵A中第i行第i列的元素。原创 2024-06-01 14:50:12 · 570 阅读 · 0 评论 -
什么是自适应近邻图学习的多视角聚类方法?
自适应近邻图学习的多视角聚类方法是一种高级的机器学习技术,旨在处理含有(或称为“视角”)的数据集,每个视角提供关于数据的不同侧面或特征信息。这种方法通过整合多个视角下的信息来改善聚类效果,特别是在数据具有复杂结构和高维度的情况下更为有效。核心思想是利用自适应机制来优化邻近关系的建模,以及跨视角的相似性融合,从而达到更准确的聚类。原创 2024-05-31 16:23:12 · 508 阅读 · 0 评论 -
什么是谱聚类?
谱聚类通过将数据的相似性转化为图结构,并利用图的拉普拉斯矩阵的特征值分解来寻找数据的最佳分割,从而达到聚类的目的。这种方法尤其擅长处理具有复杂分布的数据,但计算复杂度相对较高,尤其是对于大规模数据集。原创 2024-05-31 16:18:32 · 838 阅读 · 0 评论 -
什么是PCA降维?
使用PCA(主成分分析)作为例子,来详细介绍降维的具体步骤。原创 2024-05-31 16:03:51 · 566 阅读 · 0 评论 -
如何进行特征分解?
至此,完成了矩阵 (A) 的特征分解,其中 (V) 是由 (A) 的特征向量组成的正交矩阵,而 Λ 是对角矩阵,对角线上的元素是 (A) 的特征值。由于 (A) 是实对称矩阵,其不同特征值对应的特征向量自然正交,如果特征值重合,则需要通过格拉姆-施密特正交化过程确保正交。对于一个给定的方阵 (A)(特别是实对称矩阵),特征分解就是将其表示为一组正交特征向量和对应的特征值的乘积形式。特征分解(也称为谱分解)是线性代数中一种重要的矩阵分解方法,主要应用于对称正定矩阵。注意,得到的特征向量需要标准化为单位向量。原创 2024-05-31 15:23:55 · 679 阅读 · 0 评论 -
什么是非凸形状与的凸形状簇?
相反,"非凸形状的簇"指的是簇的边界不能由一个凸多面体完全描述,簇内部可能有凹陷或者复杂的突起部分,即存在这样的两点,"非凸形状的簇"这一概念主要出现在数据分析和机器学习领域,尤其是在聚类分析中。"凸形状的簇"指的是簇的边界可以由一个凸多面体(在二维中是凸多边形)包围,聚类是将数据集分割成多个组或“簇”的过程,其中每个簇包含相似的数据点。原创 2024-05-31 14:54:39 · 144 阅读 · 0 评论 -
什么是图的拉普拉斯矩阵?
图的拉普拉斯矩阵是一种重要的数学工具,广泛应用于图论、网络分析、信号处理以及机器学习等领域,尤其是在谱图理论中占据核心地位。对于一个给定的图 (G=(V,E)),其中 (V) 是顶点集合,(E) 是边的集合,拉普拉斯矩阵 (L) 被定义为度矩阵 (D) 减去邻接矩阵 (A),即 (L = D - A)。在谱图理论中,通过对拉普拉斯矩阵进行特征分解并分析其特征值和特征向量,我们可以获得关于图的很多重要信息,比如图的连通性、图的割集、最大流最小割问题、图的扩张性质等。是非零向量,称为对应的特征向量。原创 2024-05-31 14:40:06 · 904 阅读 · 0 评论 -
度矩阵和邻接矩阵
度矩阵 (D) 和邻接矩阵 (A) 是如何定义和构建的。原创 2024-05-31 14:34:38 · 740 阅读 · 0 评论