机器学习
文章平均质量分 91
此专栏,用来记录自己机器学习路程的点点滴滴。
张连海
这个作者很懒,什么都没留下…
展开
-
机器学习(决策树五)——案例:鸢尾花数据分类 及 据特征属性比较
本文实现两个案例,分别是:鸢尾花数据分类 和 鸢尾花数据特征属性比较。原创 2020-05-30 18:06:06 · 9174 阅读 · 2 评论 -
机器学习(决策树四)——简述 剪枝
随着决策树深度的增大,模型效果会变化,但增大太多就会导致过拟合的情况,对于过拟合,常见的有两咱优化方式:剪枝优化 和 随机森林。这篇博客简要介绍剪枝优化,随机森林在后续的博客中再做介绍。原创 2020-05-29 18:18:11 · 1989 阅读 · 1 评论 -
机器学习(决策树三)——简述 ID3 C4.5 CART
决策树常见的算法有ID3 C4.5 CART,这里只简述一下,不做详细介绍。因为了解了决策树的概念,再看这几个算法,特别简单。重点介绍三者的关系。原创 2020-04-23 20:56:53 · 4594 阅读 · 0 评论 -
机器学习(概述一)——定义
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。原创 2019-05-28 16:18:17 · 14170 阅读 · 0 评论 -
机器学习(概述二)——开发流程
在具体的机器学习算法之前,先来从宏观上介绍一下机器学习的开发流程,这样能对机器学习有个整体认识。总的来说,分为数据收集、数据处理、模型构建、模型测试评估、投入使用(模型部署与整合)、迭代优化等。对于数据处理部分也叫特征工程,有的时候会分成数据清洗和特征工程。原创 2019-06-05 02:12:00 · 13553 阅读 · 1 评论 -
机器学习(回归一)——线性回归-最小二乘
从这篇博客开始将介绍机器学习中的比较重要的内容——回归,期间会穿插着涉及到的知识点,如正则化。本篇是回归大家族中最简单的一种——线性回归,采用最小二乘法来求得最优解。原创 2019-12-06 16:37:23 · 17401 阅读 · 0 评论 -
机器学习(回归二)——线性回归-最小二乘-代码实现
本篇内容本来想在写在上篇博客中的,那样篇幅过长,就单独提出来了。本篇文章采用两种方式实现线性回归,一种是使用scikit-learn。而通过上篇博客,我们已经知道了最小二乘法求解线性回归参数,所以完全可以自己手动实现。原创 2019-12-07 00:33:33 · 12272 阅读 · 5 评论 -
机器学习(回归三)——线性回归-多项式扩展
前两篇博客介绍的是线性回归,线性回归的一个问题是有可能出现欠拟合现象,解决欠拟合其中的一个方法是本文的多项式扩展,还有一个是后面的博客会介绍的局部加权线性回归(Locally Weighted Linear Regression,LWLR)。原创 2019-12-20 17:09:48 · 4637 阅读 · 1 评论 -
机器学习(回归四)——线性回归-正则化
普通的线性回归往往拟合效果不好,比如图形是曲线的形式,可以做一个多项式扩展,变到高维空间。也可以说多项式扩展能解决线性回归模型欠拟合的情况。但多项式的阶数如果太高,就会导致过拟合的情况,也就是训练集上特别好,测试集不太理想。对于过拟合可以使用L1或L2来解决,也就是在J(θ) 的基础上把模型的复杂度加上,如岭回归。原创 2019-12-26 15:09:16 · 6528 阅读 · 0 评论 -
机器学习(回归五)——线性回归-局部加权线性回归
前面博客有讲到,样本如果不是线性的可以通过多项式扩展,映射到多维空间来拟合。如此之外,还可以做一个局部加权线性回归(Locally Weighted Linear Regression,LWLR)。...原创 2020-01-27 21:01:44 · 8997 阅读 · 0 评论 -
机器学习(优化算法一)——梯度下降
像普通线性回归、Ridge回归,通过求导,也就是最小二乘法就可以求解,但Lasso不可以,Lasso通常采用的是坐标轴下降法。除了最小二乘法,还有另外一种方法,也是最常用的:梯度下降法。本文最后,也简要的介绍了一下牛顿法和拟牛顿法。原创 2020-01-29 16:30:06 · 5128 阅读 · 0 评论 -
机器学习(优化算法二)——梯度下降-代码实现
上篇博客说的是梯度下降法,主要讲的原理及公式推导,这篇博客来进行代码实现。包括手动模拟梯度下降的方式来进行求解,以及运用自己实现的梯度下降来完成一个线性回归的例子。原创 2020-01-30 17:19:30 · 5628 阅读 · 1 评论 -
机器学习(优化算法三)——坐标轴下降
概述Lasso回归采用的是坐标轴下降法(Coordinate Descent, CD)是一种迭代法,通过启发式的方法一步步的迭代求解函数的最小值,和梯度下降法(GD)不同的是,坐标轴下降法是沿着坐标轴的方向去下降,而不是采用梯度的负方向下降。示意图大致如下:坐标轴下降法利用EM算法的思想,在参数更新过程中,每次均先固定 m-1 个参数值,求解剩下的一个参数的局部最优解;然后进行迭代式的更新...原创 2020-01-31 11:03:02 · 6188 阅读 · 2 评论 -
机器学习(回归六)——逻辑回归
逻辑回归本质是分类问题,而且是二分类问题,不属于回归,为何把逻辑回归放到回归系统博客中呢?我们可以这样理解,逻辑回归就是用回归的办法来做分类。它是在线性回归的基础上,通过Sigmoid函数进行了非线性转换,从而具有更强的拟合能力。原创 2020-02-01 21:25:10 · 7645 阅读 · 1 评论 -
机器学习(回归七)——逻辑回归-代码实现
上篇博客说的是逻辑回归的基本内容,包括公式推导,总体来说,和普通线性回归差不多。这篇博客使用逻辑回归基于病理数据进行乳腺癌预测。原创 2020-02-05 00:01:01 · 6271 阅读 · 0 评论 -
机器学习(回归八)——Softmax回归
前面博客说的是logistic逻辑回归,这篇博客则是Softmax回归,可以说Softmax回归是logistic回归的一般化(因为logistic是二分类的),适用于K分类的问题。原创 2020-02-08 23:41:49 · 4597 阅读 · 0 评论 -
机器学习(回归九)——SoftMax回归-代码实现
上篇博客说的是SoftMax回归的基本内容,包括公式推导。这篇博客基于葡萄酒数据进行葡萄酒质量预测模型构建,使用Softmax算法构建模型,并获取Softmax算法构建的模型效果(注意:分成11类)原创 2020-02-11 19:56:55 · 9115 阅读 · 1 评论 -
机器学习(回归十)——阶段性总结
现在对回归做一下阶段性总结。回归算法,总的来说就是这些,当然还有一些变种,基本上逃不过线性回归和逻辑回归这两种。其实回归家族中还有比较有名的树回归,这里就先不介绍,因为会涉及决策树相关的内容,所以后面讲到决策树时再做介绍。(其实内容特别简单)原创 2020-02-21 00:39:44 · 6765 阅读 · 1 评论 -
机器学习(补充)——模型判断、交叉验证
这里对一些零碎的知识点进行补充,由于内容比较少,不再做详细的介绍。原创 2020-03-02 23:34:15 · 4779 阅读 · 0 评论 -
机器学习(聚类一)——概述
从这篇博客开始,介绍一下无监督学习中最典型的代表——聚类。原本是想讲“分类”这一机器学习最重量级的部分,但内容比较多,所以先讲内容比较少的“聚类”。再介绍具体的聚类算法之前,先简要的说说聚类的概念,以及一些知识点的补充。原创 2020-03-11 10:36:15 · 3173 阅读 · 0 评论 -
机器学习(聚类二)——K-Means
K-means算法,也称为K-平均或者K-均值,是一种使用广泛的最基础的聚类算法,一般作为掌握聚类算法的第一个算法。原创 2020-03-14 14:20:18 · 4183 阅读 · 0 评论 -
机器学习(聚类三)——K-Means 代码实现
我们自己产生模拟数据,看一下 k-means 运行情况,主要目的是熟悉一下API接口,并看一下不同的数据分布对 K-Means 会产生什么样的影响。原创 2020-03-17 15:38:18 · 4414 阅读 · 0 评论 -
机器学习(聚类四)——K-Means的优化算法
K-Means算法是最基本的一种聚类算法,也会有一些问题,前面的博客《机器学习(聚类二)——K-Means》中有介绍,这里就不详细说了。本篇文章介绍一下典型的优化算法。原创 2020-03-20 09:24:59 · 6677 阅读 · 1 评论 -
机器学习(聚类五)——聚类算法的衡量指标
结果的好坏,都要有相应的指标来衡量。尤其聚类的特殊性,也有一些特殊的算法。原创 2020-03-23 22:02:40 · 5736 阅读 · 0 评论 -
机器学习(聚类七)——层次聚类的优化算法
上篇博客介绍的层次聚类,尤其是AGNES这一传统的层次聚类算法。这篇博客介绍层次聚类的优化算法:BIRCH算法(平衡迭代削减聚类法),以及对BIRCH优化的CURE算法(使用代表点的聚类法)。原创 2020-04-13 20:34:03 · 6342 阅读 · 1 评论 -
机器学习(聚类八)——密度聚类
这篇博客介绍另一种类型的聚类算法——密度聚类。密度聚类方法的指导思想:只要样本点的密度大于某个阈值,则将该样本添加到最近的簇中。这类算法可以克服基于距离的算法只能发现凸聚类的缺点,可以发现任意形状的聚类,而且对噪声数据不敏感。但是计算复杂度高,计算量大。常用算法有:DBSCAN 和 MDCA。原创 2020-04-14 14:25:42 · 4464 阅读 · 0 评论 -
机器学习(聚类九)——密度聚类(DBSCAN)算法案例
这篇博客使用scikit的相关API创建模拟数据,然后使用DBSCAN密度聚类算法进行数据聚类操作,并比较DBSCAN算法在不同参数情况下的密度聚类效果。原创 2020-04-14 20:51:19 · 3569 阅读 · 0 评论 -
机器学习(聚类十)——谱聚类及代码实现
谱聚类是基于谱图理论基础上的一种聚类方法,与传统的聚类方法相比:具有在任意形状的样本空间上聚类并且收敛于全局最优解的优点。(但效率不高,实际工作中用的比较少)原创 2020-04-15 14:51:24 · 9382 阅读 · 1 评论 -
机器学习(聚类十一)——不同聚类算法在不同数据分布情况下的聚类效果
至此聚类相关的内容告一段落,前面十篇博客介绍了常见的几种聚类算法,也加入了一些代码实现。这篇博客来一个汇总的实例,分别创建圆形数据、月牙形数据、聚团数据以及随机数据,并测试不同数据在各种不同聚类算法中的聚类效果以及消耗时间。原创 2020-04-15 18:50:52 · 3360 阅读 · 0 评论 -
机器学习(KNN一)——原理概述
从这篇博客开始机器学习最大的一块——分类(有监督学习),并以KNN做为开篇。(当然KNN也可用做回归)原创 2020-04-19 17:17:03 · 3799 阅读 · 0 评论 -
机器学习(KNN二)——案例:鸢尾花数据分类
这里使用比较经典的鸢尾花数据,来做KNN分类。API为最基本的KNeighborsClassifier。原创 2020-04-19 17:19:10 · 5346 阅读 · 2 评论 -
机器学习(决策树一)——最直白的话来说信息熵
接下来几篇博客介绍决策树,并且尽量用最直白的话来讲解。本篇博客介绍决策树中比较重要的一个概念——信息熵。原创 2020-04-19 19:51:41 · 6809 阅读 · 0 评论 -
机器学习(决策树二)——简述 决策树
了解了信息熵,再看决策树,会很容易的。通过上篇博客,我们知道:信息熵被认为是一个系统有序程度的度量,一个系统越是有序,信息熵就越低,一个系统越是混乱,信息熵就越高。决策树的构造过程就是,如何划分,能让系统变得更加有序。原创 2020-04-20 18:44:54 · 4775 阅读 · 0 评论