![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 76
Lee_jiaqi
这个作者很懒,什么都没留下…
展开
-
机器学习(基本概念)
1.概念学习:概念学习是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数的值。2.目标概念:指代学习的概念或目标函数。3.训练集/训练样例:用来进行训练,也就是产生模型或者算法的数据集。4.测试集/测试样例:用来专门进行测试已经学习好的模型或者算法的数据集。5.特征向量:属性的集合,通常用一个向量来表示,附属于一个实例。6.标记:实力类别的标记。7.正例、反例8.分类:目标标记为类别型数据9原创 2017-10-27 19:03:49 · 222 阅读 · 0 评论 -
机器学习实战—基于概率论的分类方法:朴素贝叶斯
分类器有时会产生错误,这时可以要求分类器给出一个最优的类别猜测结果,同时给出这个猜测的概率估计值。朴素贝叶斯:因为整个形式化过程只做最原始、最简单的假设。一、基于贝叶斯决策理论的分类方法: 用p1(x,y)表示数据点(x,y)属于类别1的概率 p1(x,y表示数据点(x,y)属于类别0的概率 如果p1(x,y)> p0(x,y) ,那么为类别1 如果p1(x,y)< p...原创 2018-04-12 16:46:02 · 411 阅读 · 0 评论 -
机器学习实战—Logistic回归
回归:假设现在有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合的过程叫做回归。训练一般是指训练机器学习模型的参数,优化参数。一、基于Logistic回归和Sigmoid函数的分类 我们需要的分类函数应该是接受所有的输入然后预测出类别,在二分类问题中,函数输出0或者1,为了避免函数在跳跃点上从0瞬间跳跃到1,可以使用sigmoid函数。为了实现Logistic...原创 2018-04-18 22:48:27 · 653 阅读 · 0 评论 -
机器学习实战—支持向量机
支持向量机中的数学推导太多了! 以下两篇博客内容对SVM的原理及数学推导做了详细解析,认认真真的看完,对支持向量机的认识就会很深刻了,阅读书中的代码毫不费力。 https://zhuanlan.zhihu.com/p/29604517 https://zhuanlan.zhihu.com/p/29872905...原创 2018-04-24 01:59:11 · 187 阅读 · 0 评论 -
机器学习实战—树回归
线性回归包含了一些强大的方法,但这些方法创建的模型需要拟合所有的样本点(局部加权线性回归除外)。当数据拥有众多特征并且特征之间关系十分复杂时,构建全局模型的想法就太难了。一种可行的办法是将数据集切分成很多份易建模的数据,然后利用线性回归建模,如果首次切分后仍然难以拟合线性模型就继续切分,在这种切分方式下,树结构和回归法就很有用。这里介绍一种即可用于分类还可以用于回归的CART树构建算法。之后引...原创 2018-05-02 16:16:13 · 658 阅读 · 0 评论 -
机器学习实战—K-均值聚类算法
聚类是一种无监督的学习,它将相似的对象归到同一簇中,簇内的对象越相似,聚类的效果越好。K-均值聚类算法,它可以发现K个不同的簇,且每个簇的中心采用簇中所含值的均值计算而成。簇识别概念:假定有一些数据,现在将相似数据归到一起,簇识别会告诉我们这些簇到底都是些什么,聚类与分类的最大不同在于,分类的目标事先已知,而聚类则不一样。因为其产生的结果与分类相同,而只是类别没有预先定义,聚类有时也被称为无监...原创 2018-05-03 22:18:52 · 1672 阅读 · 0 评论 -
机器学习实战—利用AdaBoost元算法提高分类性能
元算法:是对其他算法进行组合的一种方式。一、基于数据集多重抽样的分类器将不同的分类器组合起来,这种组合结果被称为集成方法或者元算法。集成方法的形式: 1.不同算法的集成; 2.同一算法在不同设置下的集成; 3.数据集不同部分分配给不同分类器之后的集成; 本文介绍的两种集成算法都是基于同一分类器多个不同样本实例的方法。1.1 bagging:基于数据随机重抽样的分类器构建方法...原创 2018-04-25 22:38:55 · 1117 阅读 · 0 评论 -
机器学习实战—使用Apriori算法进行关联分析
从大规模数据集中寻找物品间的隐含关系被称作关联分析或者关联规则学习。一、关联分析频繁项集:经常出现在一块的集合。 关联规则:按时两种物品之间可能存在很强的关系。支持度:一个项集的支持度被定义为数据集中包含该项集的记录所占的比例。 可信度或置信度:是针对诸如{尿布}—>{葡萄酒}的关联规则来定义的,这条规则的可信度被定义为:支持度({尿布,葡萄酒})/支持度({尿布})支持...原创 2018-05-04 20:13:35 · 7891 阅读 · 3 评论 -
机器学习实战—使用FP-growth算法来高效发现频繁项集
FP-growth算法基于Apriori构建,但采用了高级的数据结构减少扫描次数,大大加快了算法速度。FP-growth算法只需要对数据库进行两次扫描,而Apriori算法对于每个潜在的频繁项集都会扫描数据集判定给定模式是否频繁,因此FP-growth算法的速度要比Apriori算法快。FP-growth算法发现频繁项集的基本过程如下: 1、构建FP树 2、从FP树中挖掘频繁项集FP-...原创 2018-05-05 20:52:23 · 3137 阅读 · 0 评论 -
机器学习实战—利用PCA来简化数据
一、降维技术在低维下,数据更容易处理。 对数据简化有如下原因: 1、使得数据集更易使用。 2、降低很多算法的计算开销。 3.去除噪声。 4.使得结果更易懂。第一种降维的方法是主成分分析(PCA),在PCA中,数据从原来的坐标系中转换到了新的坐标系,新坐标系的选择由数据本身决定。第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴的选择和第一个坐标轴正交且具有最大方差的方...原创 2018-05-06 12:45:15 · 862 阅读 · 0 评论 -
机器学习实战—预测数值型数据:回归
一、用线性回归找到最佳拟合直线回归的目的是预测数值型的目标值,即依据输入写出一个目标值的计算公式。 这个公式就是所谓的回归方程,此处的HorsePower是我们要求的目标值,0.0015和-0.99就是回归方程的回归系数,annualSalary和hourListingToPublicRadio是计算目标值所需要输入的值。求这些回归系数的过程就是回归。给定输入X矩阵,回归系数存放...原创 2018-04-28 01:01:18 · 936 阅读 · 0 评论 -
机器学习实战—决策树
决策树原理:通过一系列数据,最后给出分类结果,使用不熟悉的数据集合,从中提取出一系列规则。 决策树的主要优势在于数据形式非常容易理解 一、决策树的构建: 构造决策树时,第一个问题是当前数据集上哪个特征在划分数据分类时起决定性作用。 信息量的度量=信息不确定性的多少,变量的不确定性越大,熵越大,把它搞清楚所需的信息就越大。熵是信息的期望值。 划分数据集的大原则是:将无序的数据有序化,划分数...原创 2018-04-11 18:56:23 · 339 阅读 · 0 评论 -
机器学习实战—(K-近邻算法)
K-近邻算法工作原理:存在一个样本数据集合,并且样本集中都存在标签,输入没有标签的新数据后,将新数据的每个特征与样本集合中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签,一般来说只选择样本数据集中前k个最相似的数据,最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。K-近邻算法一般流程: 1.收集数据 2.准备数据 3.分析数据 4.训练数...原创 2018-04-09 18:43:38 · 353 阅读 · 0 评论 -
机器学习(非线性回归)
1.概率: 1.1定义:概率:对一件事情发生的可能性的衡量1.2范围:0<=P<=11.3计算方法: 1.3.1根据各人之置信 1.3.2根据历史数据 1.3.3根据模拟数据1.4条件概率 P(A|B) = P(A&&B)/P(B)2.逻辑回归2.1基本模型 测试数据为X(x0,x1,x2,……xn) 要学习的参数为Θ(θ1,θ2,θ3原创 2017-11-16 01:04:45 · 919 阅读 · 0 评论 -
机器学习(决策树)
机器学习中分类和预测算法的评估:准确性速度强壮性可规模性可解释性1.决策树概念决策树是一个类似于流程图的树结构;其中,每个内部结点代表类或类分布。树的最顶层是根节点。2.构造决策树的基本算法2.1.熵的概念一条信息的信息大小和它的不确定性有直接的关系,要搞清楚一件非常不确定的事情,需要了解大量信息。所以信息的度量就等于不确定的多少。用比特来衡量信息的多少-(p1*logp1 + p2*l原创 2017-10-29 20:18:57 · 380 阅读 · 0 评论 -
机器学习(KNN-K最邻近分类)
一、综述1.属于分类算法2.输入基于实例的学习,懒惰学习二、算法详述1.步骤: (1)为了判断未知实例的类别,以所有已知类别的实例作为参照 (2)选择参数 (3)计算未知实例与所有已知实例的距离(两点之间的距离) (4)选择最近k个已知实例 (5)根据少数服从多数的投票法则,让未知实例归类为k个最临近样本中最多数的类别2.算法优缺点:优点:简单、易于理解、容易实现、通过对k的选择可具备丢噪原创 2017-10-31 17:46:06 · 750 阅读 · 0 评论 -
机器学习基础(一)
一、机器介绍1.概念:多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。2.定位:人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。3.定义:探究一系列算法来如何使计算机不需要通过外部明显的指示,而可以自原创 2017-10-26 09:00:24 · 188 阅读 · 0 评论 -
机器学习(简单线性回归)
1.回归:Y变量为连续数值型;分类:Y变量为类别型2.简单线性回归 2.1很多做决定过程通常是根据两个或者多个变量之间的关系 2.2回归分析用来建立方程模拟两个或者多个变量之间的关系 2.3被预测的变量叫做:因变量,y,输出 2.4被用来进行预测的变量叫做:自变量,x,输入3.简单线性回归介绍 3.1简单线性回归包含一个自变量(x)和一个因变量(y) 3.2以上两个变量之间的关系用一条直原创 2017-11-14 00:35:41 · 416 阅读 · 0 评论 -
机器学习(多元线性回归)
1.与简单线性回归的区别 多个自变量(x)2.多元回归模型 y= β0+ β1*x1+ β2*x2+……..+ βp*xp+e 其中 β1, β2,… βp, β0是参数 e是误差值3.多元回归方程 E(y)= β0+ β1*x1+ β2*x2+……..+ βp*xp4.估计多元回归方程 y=b0+b1*x1+b2*x2+……+bp*xp代码实现: 自变量只为数值型:数据文件: #原创 2017-11-14 00:51:55 · 5349 阅读 · 1 评论 -
机器学习(聚类分析)
1.归类: 聚类属于非监督学习:无类别标记2.K-means算法:2.1Clustering中的经典算法,数据挖据十大经典算法之一2.2算法接受参数k,然后将事先输入的n个对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度极高,而不同聚类中的对象相似度极小2.3算法思想: 异空间中k个点为中心进行聚类,对最靠近他们的对象进行归类,通过迭代的方法,逐次更新个聚类中心的值,直至得到最原创 2017-11-19 10:45:37 · 588 阅读 · 0 评论 -
机器学习(回归问题中的相关度和决定系数)
1.皮尔狲相关系数: 1.1衡量两个值线性相关强度的量 1.2取值范围:[-1,1]: 正向相关:>0,负向相关:<0,无相关性:=0ρ = Cor(X,Y)=Cov(X,Y)/sqrt(Var(X)*Var(Y))2.R平方值 2.1定义:决定系数,反应因变量的全部变异能通过回归关系被自变量解释的比例2.2描述:如R平方为0.8,则表示回归关系可以解释因变量80%的变异,换句话说,如果我们原创 2017-11-17 01:43:05 · 4416 阅读 · 0 评论 -
机器学习(层次聚类)
假设有N个待聚类的样本,对于层次聚类来说,步骤:1.(初始化)把每个样本归为一类,计算每两个类之间的距离,也就是样本与样本值之间的相似度;2.寻找各个类之间最近的两个类,把他们归为一类(这样类的总数就少了一个);3.重新计算新生成的这个类与各个旧类之间的相似度;4.重复2和3直到所有样本点都归为一类,结束。整个聚类过程其实是建立了一棵树,在建立过程中,可以通过在第二步设置一个阈值,当最近的两个类的距原创 2017-11-19 11:31:33 · 599 阅读 · 0 评论 -
机器学习(神经网络)
1.背景:1.1以人脑中的神经网络为启发,历史上出现过很多不同的版本1.2最著名的算法是1980年的backpropagation2.多层向前神经网络2.1backpropagation被使用在多层向前神经网络上2.2多层向前神经网络由以下部分组成: 输入层、隐藏层、输出层2.3每层由单元组成2.4输入层是由训练集的实例特征向量传入2.5经过连接节点的权重传入下一层,一层的输出是下一层的输入2.6原创 2017-11-19 16:38:23 · 1816 阅读 · 1 评论 -
机器学习(支持向量机-SVM)
一、深度学习的一般框架: 训练集->提取特征向量->结合一定算法(分类器:比如决策树,KNN)->得到结果二、向量机的概念: 如图所示,就是一个二维几何空间中的分类。中间那条直线就是这个分类的超平面。我们不难发现,用来确定这条直线其实只需要两条虚线上的三个点就够了,其他距离很远的点,虽然是训练样本,但是因为特征太明显,不会引起歧义,也对我们分类的超平面的确定意义并不大。所以只要找到最靠近分类原创 2017-11-02 21:29:11 · 12566 阅读 · 2 评论 -
机器学习实战—利用SVD简化数据
一、SVD的应用 奇异值分解: 优点:简化数据,去除噪声。提高算法的结果。 缺点:数据转换难以理解。利用SVD能够实现用小得多的数据集来表示原始数据集,这样做,实际上是去除了噪声和冗余信息。当我们视图节省空间时,去除噪声和冗余信息是目标,但是我们这里则是从数据中抽取信息,基于这个视角,我们可以把SVD看成是从有噪声的数据中抽取相关特征。1、隐性语义索引(LSI)利用SVD的方法为...原创 2018-05-06 21:18:51 · 682 阅读 · 1 评论