![](https://img-blog.csdnimg.cn/20190927151043371.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习
文章平均质量分 88
以机器学习的应用实例为大家简单介绍机器学习
凌天傲海
一名学编程的大学生
展开
-
基于随机森林的房价预测(boston住房数据集)
随机森林是多个回归决策树的集合。相对于回归决策树,随机森林有以下几个优点:(1)由于建立了多个决策树,因此随机森林可以降低单个决策树异常值带来的影响,预测结果更准确。(2)回归决策树采用了训练集的所有特征和样本,而随机森林采用训练集的部分特征构建多个决策树,相对于决策树回归降低了过拟合的可能性。相对于回归决策树,随机森林存在以下缺点:(1)随机森林的计算量相对于决策树更大。(2)由于采用训练集的部分特征构建多个决策树,随机森林可能存在部分数据没有被训练到的问题。原创 2023-04-15 00:53:09 · 7050 阅读 · 8 评论 -
基于PCA的数据降维(鸢尾花(iris)数据集)
这证明了PCA降维的确提取出了重要特征,并且这种特征可以更好地区分数据,从而避免了数据集的“高维灾难”。鸢尾花数据集是 Python 中 sklearn 库自带的数据集。数据本身是四维数据集,这里采用数据降维技术将数据降至二维,以便更好地可视化数据特征。由于数据集已经进行了预定义为三类,为了有效区分不同类型之间特征以及同类别间的联系,将在二维空间进行可视化操作。首先加载高维数据集(维度为4),并确定降维后空间维度n_components(维度为2)。原创 2023-04-10 14:05:35 · 1883 阅读 · 0 评论 -
基于决策树的鸢尾花图像分类
这样做的好处是可以将高维数据可视化成二维平面上的点,并通过不同的颜色和形状来表示它们的类别信息。但是,在前面决策树构建的代码中,只需要把决策树的参数max_depth修改为3,就能够做到预先限制决策树深度的作用,如下图所示。在分类问题中,决策树表示基于特征对实例进行分类的过程,它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。下面的代码没有导出.dot格式的文件,如果要导出该类文件,只需将代码'out_file=None'中的'None'改成你想要的文件名即可。原创 2023-04-13 01:37:44 · 1269 阅读 · 0 评论 -
KNN分类算法介绍,用KNN分类鸢尾花数据集(iris)
为了判断未知样本的类别,已所有已知类别的样本作为参照,计算未知样本与已知样本的距离,从中选取与未知样本距离最近的K个已知样本,根据少数服从多数的投票法则(Majority-Voting),将未知样本与K个最近邻样本中所属类别占比较多的归为一类。其中,K表示要选取的最近邻样本的实例的个数,可以根据实际情况进行选择。当样本不平衡时,即一个类的样本数量很大,而其它类样本数量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大数量类的样本容易占多数,导致错误分类。比如,对样本距离小的邻域数据赋予更大的权值。原创 2023-04-12 01:03:51 · 4399 阅读 · 0 评论 -
基于支持向量机(SVM)的异或数据集划分
支持向量机(Support Vector Machine,SVM)是一种常用的二分类模型,它的基本思想是寻找一个超平面来分割数据集,使得在该超平面两侧的不同类别的数据点到该超平面的距离最大化。SVM的目标就是要找到这个超平面。原创 2023-04-14 02:16:48 · 1676 阅读 · 0 评论