机器学习
文章平均质量分 85
记录机器学习的总结知识
只鸥周
这个作者很懒,什么都没留下…
展开
-
CRF简介
CRF条件随机场的原理、例子、公式推导和应用 - 知乎原创 2023-09-22 21:27:46 · 38 阅读 · 0 评论 -
概率图模型
(一)其实接触概率图模型也有一段时间了,从开始入坑NLP起,也陆陆续续看了很多关于图模型这方面的论文、博客和教程等,但是总是不能形成一个完整的体系,所以这次就下决心花点时间好好去整理复习一下。网上的资料很多,但是那都是别人的,最重要的还是要学会整理融合成自己的知识。今天这篇主要就介绍一下图模型的基础知识,后面陆续会整理HMM, CRF等比较常见常用的概率图模型。概率论只不过是把常识归纳为计算问题。 (皮诶尔·西蒙·拉普拉斯)什么是概率图我们首先肯定都知道什么是图。图就是由结点和结点之间的链接组原创 2023-09-04 20:23:06 · 123 阅读 · 0 评论 -
bagging与随机森林
集成学习(ensemble learning)是现在非常热门的机器学习方法,在各种大赛中都可以看到它的身影。它本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务,所以常常比单一学习器具有更为显著的泛化性能。根据个体学习器的生成方式,目前的集成学习主要可以分为两类:①个体学习器之间存在强依赖关系、必须串行生成的序列化方法,代表是Boosting;②个体学习器之间不存在强依赖关系、可同时生成并行化方法,代表是Bagging。原创 2023-09-04 20:19:38 · 340 阅读 · 0 评论 -
LDA降维
若根据PCA进行降维,将会把数据映射到红色直线上,这样做投影确实方差最大,但是这样做投影之后两类数据样本将混合在一起,将不再线性可分,甚至是不可分的。上面的这个数据集如果使用LDA降维,找出的投影方向就是黄色直线所在的方向,这样的方法在降维之后,可以很大程度上保证了数据的线性可分的。从所举的例子图中也能看出,我LDA的期望是使得两个类间的距离最大,类内的距离最小。还记得在PCA中是怎样做的吗?回顾PCA的过程,是不是和LDA很相似呢,但是其原理却不一样,对于无监督学习使用PCA,有监督学习使用LDA。原创 2023-09-04 20:21:41 · 86 阅读 · 0 评论 -
Boosting:AdaBoost
AdaBoost是英文"Adaptive Boosting"(自适应增强)的缩写,它的自适应在于:前一个基本分类器被错误分类的样本的权值会增大,而正确分类的样本的权值会减小,并再次用来训练下一个基本分类器。同时,在每一轮迭代中,加入一个新的弱分类器,直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数才确定最终的强分类器。原创 2023-09-04 20:20:19 · 37 阅读 · 0 评论 -
LDA主题模型
在机器学习领域,关于LDA有两种含义,一是「线性判别分析(Linear Discriminant Analysis)」,是一种经典的降维学习方法;一是本文要讲的「隐含狄利克雷分布(Latent Dirichlet Allocation)」,是一种概率主题模型,主要用来文本分类,在NLP领域有重要应用。LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出,用来推测文档的主题分布。原创 2023-09-04 20:21:07 · 291 阅读 · 0 评论 -
scikit-learn 线性回归算法总结
线性回归在机器学习算法中算是一个比较简单基础的算法。线性回归的目的是要得到输出向量Y和输入特征X之间的线性关系,求出线性回归系数θ,也就是 Y=Xθ。其中Y的维度为mx1,X的维度为mxn,而θ的维度为nx1。m代表样本个数,n代表样本特征的维度。为了得到线性回归系数θ,我们需要定义一个损失函数,一个极小化损失函数的优化方法,以及一个验证算法的方法。损失函数的不同,损失函数的优化方法的不同,验证方法的不同,就形成了不同的线性回归算法。scikit-learn中的线性回归算法库可以从这这三点找出各自的不同点。原创 2023-08-31 16:46:45 · 219 阅读 · 0 评论 -
逻辑回归问答
形式简单,模型的可解释性非常好。从特征的权重可以看到不同的特征对最后结果的影响,某个特征的权重值比较高,那么这个特征最后对结果的影响会比较大。模型效果不错。在工程上是可以接受的(作为baseline),如果特征工程做的好,效果不会太差,并且特征工程可以大家并行开发,大大加快开发的速度。训练速度较快。分类的时候,计算量仅仅只和特征的数目相关。并且逻辑回归的分布式优化sgd发展比较成熟,训练的速度可以通过堆机器进一步提高,这样我们可以在短时间内迭代好几个版本的模型。资源占用小,尤其是内存。原创 2023-08-31 16:47:16 · 47 阅读 · 0 评论 -
朴素贝叶斯
贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。它是基于贝叶斯定理和特征条件独立假设分类方法。对于给定训练集,首先基于特征条件独立性的假设,学习输入/输出联合概率(计算出先验概率和条件概率,然后求出联合概率)。然后基于此模型,给定输入x,利用贝叶斯概率定理求出最大的后验概率作为输出y。朴素贝叶斯法实现简单,学习和预测效率都很高,是一种常用的分类方法。###1.朴素贝叶斯相关的统计学知识。原创 2023-08-31 20:14:50 · 123 阅读 · 0 评论 -
k-means
聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”(cluster),不同的簇分布代表着聚类算法对这组数据集观测的不同角度。聚类就是将数据对象分组成多个类簇,划分的原则就是使得同一个簇内的对象之间具有较高的相似度,而不同簇之间对象之间的差异最大,一个类簇内的任意两点之间的距离小于不同类簇的任意两个点之间的距离。在介绍聚类的具体算法之前,我们得要先讨论聚类算法涉及的最基本的问题:如何判断一个聚类算法结果的好坏?这就主要涉及了两个问题:性能度量和距离计算。原创 2023-08-31 20:16:34 · 26 阅读 · 0 评论 -
机器学习中的数据预处理
主成分分析(PCA)是一种用于连续属性的数据降维方法,它构造了原始数据的一个正交变换,新空间的基底取出了原始空间基底下数据的相关性,只需使用少数新变量就能够解释原始数据中的大部分变异。在数据挖掘过程中,为了提取更有用的信息,挖掘更深层次的模式,我们需要对已有的属性集构造出新的属性,并加入到现有的属性集合中。数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值等。参数规约是指通过选择替代的、较小的数据来减少数据量,包括有参数方法和无参数方法。原创 2023-08-31 20:17:44 · 221 阅读 · 0 评论 -
k近邻(KNN)
K近邻(K-nearest neighbor,k-nn)是一种常用的机器学习监督学习方法,可用于分类和回归问题。其工作机制为:给定测试样本,基于某种距离度量找出训练集中与其最靠近的K个训练样本,然后基于这K个邻居来预测给定样本。对于分类任务,可使用“投票法”;对于回归任务,可使用“平均法”,即取这K个邻居的平均值最为预测结果,进一步地,还可以对K个邻居距离的远近进行加权处理后预测结果。与其他学习方法不同,KNN不是一种显示的学习过程,实际上是利用训练数据集对特征向量空间进行划分,并作为其分类的模型。原创 2023-08-31 20:15:52 · 38 阅读 · 0 评论 -
支持向量机
事实上,核函数的研究非常的早,要比SVM出现早得多,当然,将它引入SVM中是最近二十多年的事情。对于从低维到高维的映射,核函数不止一个。那么什么样的函数才可以当做核函数呢?这是一个有些复杂的数学问题。这里不多介绍。由于一般我们说的核函数都是正定核函数,这里我们直说明正定核函数的充分必要条件。一个函数要想成为正定核函数,必须满足他里面任何点的集合形成的Gram矩阵是半正定的。原创 2023-08-31 20:19:56 · 24 阅读 · 0 评论