![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 93
右边是我女神
笔记仓库
展开
-
第十六章 主成分分析
主成分分析是一种常用的无监督学习方法,这一方法利用正交变换把线性相关变量表示的观测数据转换为少数几个由线性无关变量表示的数据,线性无关的变量被称为主成分。主成分的个数通常小于原始变量的个数,所以主成分分析属于降维方法。数据的变量之间可能存在相关性,以致增加了分析的难度。于是,考虑由少数不相关的变量来代替相关的变量,用于表示数据,并且要求能保留数据中的大部分信息。步骤:新变量是可能的正交变换中变量的方差和(信息保存)最大的,方差表示在新变量上的信息大小。将新变量依次称为第一主成分、第二主成分等。可以利用主成分原创 2022-06-04 00:07:39 · 1285 阅读 · 2 评论 -
第十五章 奇异值分解
奇异值分解(SVD)是一种矩阵因子分解方法。任意一个m×nm\times nm×n矩阵,都可以表示为三个矩阵的乘积(因子分解)形式,分别是nnn阶正交矩阵、由降序排列的非负的对角线元素组成的m×nm\times nm×n的矩形对角矩阵和nnn阶正交矩阵。矩阵的奇异值分解一定存在,但不唯一。奇异值分解可以看做矩阵数据压缩的一种方法,即用因子分解的方式近似地表示原始矩阵,这种近似是在平方损失意义下的最优近似。定义15.1(奇异值分解)矩阵的奇异值分解是指,将一个非零的m×mm\times mm×m实矩阵A∈Rm原创 2022-06-02 21:05:56 · 5686 阅读 · 2 评论 -
第十四章 聚类方法
聚类原创 2022-06-01 23:33:43 · 319 阅读 · 0 评论 -
第十二章 监督学习方法总结 and 十三章 无监督学习概论
监督学习与无监督学习原创 2022-06-01 14:20:38 · 191 阅读 · 0 评论 -
第十章 隐马尔可夫模型
文章目录引入隐马尔可夫模型的基本概念隐马尔可夫模型的定义盒子和球模型观测序列的生成过程隐马尔可夫模型的3个基本问题概率计算算法直接计算法前向算法后向算法单个状态的概率预测算法近似算法维特比算法引入HMM是可用于标注问题的统计学习模型,描述由隐藏的马尔可夫链随机生成的观测序列的过程,属于生成模型。隐马尔可夫模型的基本概念隐马尔可夫模型的定义定义10.1(隐马尔可夫模型)隐马尔可夫模型是关于时序的概率模型,描述由一个隐藏马尔可夫链随机生成不可观测的状态随机序列,再由各个状态生成一个观测从而生成观测随机原创 2022-05-31 21:53:52 · 257 阅读 · 0 评论 -
第八章 提升方法
文章目录引入提升方法Adaboost算法提升方法的基本思路AdaBoostAdaBoost的例子AdaBoost的算法的训练误差分析AdaBoost算法的解释前向分步算法前向分步算法与AdaBoost提升树提升树模型引入在分类问题中,它通过改变训练样本的样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类的性能。提升方法Adaboost算法提升方法的基本思路提升方法的思想是:对于一个复杂任务,将多个专家的判断进行适当的综合所得出的判断,要比任何一个专家单独的判断好。一个概念,如果存在原创 2022-05-30 19:59:45 · 234 阅读 · 1 评论 -
第七章 支持向量机
文章目录引入线性可分支持向量机与硬间隔最大化线性可分支持向量机函数间隔和几何间隔间隔最大化最大间隔分离超平面支持向量和间隔边界学习的对偶算法线性支持向量机与软间隔最大化线性支持向量机学习的对偶算法支持向量合页损失函数非线性支持向量机与核函数核技巧非线性分类问题核函数的定义核技巧在支持向量机中的应用正定核引入SVM三要素概述:支持向量机是一种二分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机。支持向量机还包括核技巧,这使他成为实质上的非线性分类器。支持向量机的原创 2022-05-29 20:47:20 · 1074 阅读 · 1 评论 -
第六章 逻辑斯蒂回归与最大熵模型
文章目录引入逻辑斯蒂回归模型二项逻辑斯蒂回归模型模型的参数估计多项逻辑斯蒂回归最大熵模型最大熵原理最大熵模型的定义最大熵模型的学习引入逻辑斯蒂回归是统计学习中经典的分类方法。最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型。两者都属于对数线性模型。逻辑斯蒂回归模型定义6.1(logistic分布)设XXX是连续随机变量,XXX服从logistic分布指的是其具有以下分布函数和密度函数:F(x)=P(X≤x)=11+e−(x−μ/γ)F(x)=P(X\le x)=\frac{1}{1原创 2022-05-28 13:58:19 · 311 阅读 · 0 评论 -
第五章 决策树
文章目录引入决策树模型与学习决策树模型决策树与if-then规则决策树与条件概率分布决策树学习关于模型关于损失函数关于算法引入决策树是一种基本的分类与回归的方法。本章节主要介绍用于分类的决策树。在分类问题中,表示基于特征对实例进行分类的过程。可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。决策树学习通常包括3个步骤:特征选择;决策树的生成;决策树的修剪。决策树模型与学习决策树模型定义5.1:分类决策树模型是一种描述对实例进行分类的树形结构。决策原创 2022-05-27 14:24:29 · 567 阅读 · 0 评论 -
第四章 朴素贝叶斯法
文章目录朴素贝叶斯法的学习与分类基本方法数据定义学习联合概率分布如何求出条件概率分布?如何分类?后验概率最大化的含义朴素贝叶斯的参数估计法极大似然估计学习分类算法贝叶斯估计朴素贝叶斯法(与贝叶斯估计是不同的概念)是基于贝叶斯定理与特征条件独立假设的分类方法。给定训练数据集:基于特征独立假设学习输入输出的联合概率分布;基于此模型,对给定输入xxx,利用贝叶斯定理求出后验概率最大的输出yyy。朴素贝叶斯法的学习与分类基本方法数据定义设输入空间X⊆R\mathbb{X}\subseteq RX原创 2022-05-26 13:44:01 · 148 阅读 · 0 评论 -
第三章 k近邻法
文章目录基本概况KNN算法k近邻模型模型距离度量k值的选择分类决策规则k近邻法的实现:kd树构造kd树搜索kd树基本概况KNN是一种基本的分类和回归方法。该文只讨论分类问题中的KNN。KNN的输入为实例的特征向量,输出为实例的类别,可以取多类。k值的选择、距离的度量以及分类决策规则是k近邻法的三个基本要素。KNN算法算法3.1:输入:训练数据集T,其中xi∈Xx_i\in\mathbb{X}xi∈X为实例向量,yi∈Y={c1,c2,...cK}y_i\in\mathbb{Y}=\{c_1,原创 2022-05-16 21:14:05 · 329 阅读 · 0 评论 -
第二章 感知机
文章目录引入感知机模型感知机学习策略数据集的线性可分感知机学习策略感知机学习算法算法的收敛性感知机学习算法的对偶形式引入感知机是二分类的线性模型,输入是实例的特征向量,输出为实例的类别(取-1或+1)。感知机对应于输入空间中将实例划分为正负两类的分离超平面,属于判别模型。感知机学习旨在求出将训练数据进行线性划分的分离超平面,为此导入基于误分类的损失函数,利用梯度下降法对损失函数进行极小化。感知机学习算法简单且易于实现,分为原始形式和对偶形式。感知机是神经网络和支持向量机的基础。感知机模型定义原创 2022-05-12 14:40:20 · 219 阅读 · 0 评论 -
第一章 统计学习及监督学习概论
文章目录统计学习的概述统计学习的分类基本分类监督学习统计学习的概述赫尔伯特-西蒙:如果一个系统能够通过执行某个过程改进它的性能,这就是学习。统计学习的属性描述核心计算机系统通过运用数据及统计方法提高系统性能的机器学习对象数据前提同类数据具有一定的统计规律性目的对数据的预测与分析,特别是对位置新数据的预测与分析方法监督学习、无监督学习、强化学习等组成;基于数据构建概率模型从而对数据进行预测与分析研究统计学习方法(开发新的学习方法)、统计学习理原创 2022-05-11 14:38:05 · 392 阅读 · 0 评论 -
半监督学习
文章目录未标记样本主动学习半监督学习未标记样本的假设聚类假设流形假设基本分类纯半监督学习直推学习未标记样本主动学习先用标注的样本训练一个模型,再用这个模型去测试新的样本,然后根据专家的标签,将这个带有标记的新样本加入训练集,重新训练一个模型。主动学习引入了额外的专家知识,通过与外界交互来将部分未标记样本转化为有标记样本。然而不获得额外信息,也能够用未标记的样本来提高泛化性能。未标记样本虽然未直接包含标记信息,但他们与有标记样本是从同样的数据源独立同分布采样而来的。半监督学习让学习器不依赖外原创 2021-05-21 12:03:52 · 289 阅读 · 0 评论 -
降维与度量学习—下
KPCA流形学习是一种借鉴了拓扑流形概念的非线性降维方法。用于从高维采样数据恢复低维流形结构。流形是在局部与欧氏空间同胚的空间,即在局部具有欧式空间的性质,能用欧氏空间来进行距离计算。这样的局部可能是子空间下的图形。Isomap(等度量映射)缘由低维流形嵌入到高维空间以后,直接在高维空间计算直线距离具有误导性,因为高维空间中的直线距离在低维嵌入流行上不可达。而低维嵌入流形上两点间的本真距离是“测地线”距离。如何计算测地线距离?·对于较近点之间的测地距离,用欧氏距离代替;·较远点之间的测地原创 2021-05-21 09:29:41 · 267 阅读 · 0 评论 -
降维与度量学习—上
文章目录基本知识什么是度量学习?懒惰学习与急切学习k近邻学习思想影响因素正交变换与正交矩阵主成分分析——线性降维方法线性降维数学表示特点优点缺点子空间的性质PCA基础最近重构性推导基本知识什么是度量学习?度量:定义几何中元素之间距离的函数。度量学习称之为相似度学习。研究样本之间的相似程度。如何度量图片之间的相似度使得不同类别的相似度小而相同类别的相似度达就是度量学习的目标。为什么要进行度量学习呢?一些算法中需要度量来做出决策,比如:Kmeans、KNN。懒惰学习与急切学习懒惰学习:此类学习原创 2021-05-20 23:23:39 · 311 阅读 · 0 评论 -
贝叶斯决策论
文章目录贝叶斯决策论先验概率似然概率最小错误率贝叶斯贝叶斯公式:最大后验分类规则贝叶斯判定准则最小风险贝叶斯最小风险判决步骤最小风险贝叶斯的目标贝叶斯判定准则困难与策略判别式模型生成式模型Example极大似然估计存在的问题朴素贝叶斯分类器拉普拉斯修正使用方式半朴素贝叶斯分类器缘由基本思想SPODEAODE贝叶斯网结构独立关系依赖关系依据依赖关系分析独立关系EM算法缘由数学解释Expectation-Maximization思想算法贝叶斯决策论先验概率基于经验得到的概率,可以作为简单判别类别的依据。原创 2021-05-20 11:42:45 · 1456 阅读 · 4 评论 -
支持向量机
基本概念线性可分支持向量机给定线性可分的训练数据集,通过间隔最大化或等价地求解相应的凸二次规划问题学习得到的分离超平面为w∗z+b∗=0w^*z+b^*=0w∗z+b∗=0以及相应的分类决策函数f(x)=w∗z+b∗f(x)=w^*z+b^*f(x)=w∗z+b∗称为线性可分支持向量机。函数间隔和几何间隔我们可以用∣ωx+b∣|\omega x+b|∣ωx+b∣来表示分类预测的确信程度。这是点到直线距离计算公式的分子,越大,则距离越远,从而确信程度越高。我们设类别标记为y∈{−1,+1}原创 2021-05-19 16:21:22 · 1790 阅读 · 0 评论 -
聚类
聚类任务什么是聚类属于无监督学习。通过对无标记训练样本的学习来解释数据的内在性质和规律。目标:将数据集中的样本划分为若干个互不相交的子集(簇,cluster),子集内部具有相似性,子集之间具有差异性。注意:聚类任务即可以作为一个单独的过程,也可以作为分类等其他学习任务的前驱过程。...原创 2021-05-18 19:55:45 · 347 阅读 · 0 评论 -
决策树
什么是决策树?决策树基于树结构来预测。可用于分类任务和回归任务,本文仅介绍分类任务。基本流程基于“分而治之”策略。组成含义内部节点属性边属性值叶节点分类结果算法划分选择我们希望的是经过划分过后,分枝节点包含的样本尽可能地属于同一类别,也就是希望节点的纯度越来越高。信息增益信息熵信息熵是度量样本集合纯度的最常用的一种指标。其定义为:Ent(D)=−∑k=1∣γ∣pklog2pkEnt(D)=-\sum_{k=1}^{|\gamma|}p_k原创 2021-05-16 20:49:49 · 150 阅读 · 0 评论 -
线性模型
线性回归目的找到一个线性函数,尽可能地准确预测实值输出标记。f(x)=ωx+bf(x)=\omega x+ bf(x)=ωx+b于是我们需要找的合适的ω\omegaω与bbb。如何确定模型参数我们需要借助性能指标之一——损失函数。值得一提的是,损失函数既可以作为模型的评价指标,也可以作为模型的优化工具。前者应用在测试集与验证集,后者应用在训练集。此处采用的损失函数为均方误差(MSE)。E(f(x);D)=∑i=1m(yi−f(xi))2E(f(x);D)=\sum_{i=1}^m(y_i原创 2021-05-15 23:28:09 · 232 阅读 · 0 评论 -
模型的评估与选择
基本术语名词解释属性空间/样本空间/输入空间属性张成的空间特征向量/示例/样本属性空间中的一个点假设模型假设空间模型集真相数据潜在规律本身样例拥有标记信息的样本标记空间/输出空间标记的集合泛化能力模型适用于新样本的能力基本过程1.表示:将数据对象进行特征化表示;2.训练:学习规律/模型;3.测试:用新的数据集对模型进行测试。模型的评估与选择经验误差与过拟合误差:学习器的实际预测输出与样本的真实输出之间的差异。原创 2021-05-15 12:59:19 · 517 阅读 · 0 评论 -
集成学习
文章目录何为集成?个体学习器的构建集成学习器的优势如何获得更好的性能?集成可行性的理论分析集成分类并行化集成学习方法自主采样法流程Bagging(Bootstrap AGGregatING)基本思想算法**特点何为集成?集成学习:通过构建并结合多个学习器来完成学习任务,亦被称为多分类器系统。个体学习器的构建个体学习器通常由一个现有的学习算法,从训练数据产生。比如:决策树算法、BP神经网络等。同一类型学习器:同质集成,称之为基学习器不同类型学习器:异质集成,称之为组件学习器集成学习器的优势原创 2021-05-14 00:26:39 · 746 阅读 · 0 评论