sklearn学习
文章平均质量分 87
up-to-star
我的垃圾桶https://up-to-star.top/
展开
-
sklearn入门——聚类算法KMeans
概述聚类算法是无监督学习的代表算法之一,也叫“无监督分类”。目的是将数据分为若干有意义或有用的组,通常根据实际需求来进行划分。聚类可以用于降维和矢量量化(vectorquantization),可以将高维特征压缩到一列当中,常常用于图像,声音,视频等非结构化数据,可以大幅度压缩数据量。核心是将数据分为多个组,探索每个组的数据是否有联系。KMeans的工作原理簇与质心KMeans将数据划分称若干个无交集的簇,每个簇就是一个一组聚集在一起的数据集,在一个簇中的数据视为同一类,簇是聚类的结果体现。质心就原创 2021-11-11 10:29:14 · 4564 阅读 · 1 评论 -
sklearn入门——逻辑回归
什么是逻辑回归逻辑回归也叫对数几率回归,在西瓜书中有介绍,吃瓜的时候也学过,可惜呀,脑子不好使,全忘了。重新学一下吧。。。。在理解对数几率回归之前需要先理解线性回归。线性回归的任务,就是构造一个预测函数 来映射输入的特征矩阵x和标签值y的线性关系,具体以公式体现如下:z=θ0+θ1x1+θ2x2+...+θnxnz = \theta_0+\theta_1x_1+\theta_2x_2+...+\theta_nx_nz=θ0+θ1x1+θ2x2+...+θnxn写成矩阵形式为:构造预原创 2021-08-14 20:39:15 · 1670 阅读 · 2 评论 -
sklearn入门——降维算法
概述原创 2021-08-12 19:05:03 · 1044 阅读 · 3 评论 -
sklearn入门——特征选择
过滤法过滤法是在机器学习训练之前进行的数据预处理,根据各种统计检验指标筛选出较好的特征子集。方差过滤VarianceThreshold类通过特征的方差来筛选特征的类。有些特征的方差很小,所以要首先消除方差为0的特征。其中的参数threshold,表示方差的阈值,消除方差小于阈值的特征,默认值是0.相关操作及注释:import pandas as pdimport numpy as npfrom sklearn.feature_selection import VarianceThresh原创 2021-08-09 19:10:41 · 1632 阅读 · 0 评论 -
sklearn入门——数据预处理
概述数据预处理就是处理从数据中检测,纠正或删除损坏,不准确或不适用模型的记录的过程。可能面对的问题有:数据类型不同,比如有的是文字,有的是数字,有的含时间序列,有的连续,有的间断,也有可能数据的质量不行,存在噪声,有异常,有缺失等。数据预处理的目的就是让数据适应模型,匹配模型的需求。特征工程是将原始数据转换为更能代表预测模型的潜在问题的特征的过程,可以通过挑选最相关的特征,提取特征以及创造特征来实现。其中创造特征又经常以降维算法的方式实现。可能面对的问题有:特征之间有相关性,特征和标签无关,特征太原创 2021-08-08 17:06:39 · 412 阅读 · 0 评论 -
sklearn入门——随机森林
集成算法概述集成学习是通过在数据上构建多个模型,集成所有的模型的结果。常用的有随机森林、梯度提升树、Xgboost等。其目标是考虑多个评估器的建模结果,汇总后得到一个综合结果,以此来获取比单个模型更好的回归或分类表现。多个模型集成成为的模型叫做集成评估器,组成集成评估器的每个模型都叫做基评估器,通常有三类集成算法:袋装法(Bagging),提升法(Boosting),和Stacking。袋装法:构建多个相互独立的评估器,然后对其预测进行平均或多数表决原则来决定集成评估器的结果。袋装法的结果就是随机森原创 2021-08-07 13:02:35 · 1802 阅读 · 0 评论 -
sklearn入门——回归树
重要参数、属性及接口criterion回归树衡量分支质量的指标,支持的标准有三种:1)输入“mse”使用均方误差(mean squared error),父节点和子节点之间的均方误差的差额来作为特征选择的标准,通过使用叶子节点的均值来最小化L2损失。2)输入"friedman_mse"使用费尔德曼均方误差,这种指标使用费尔德曼针对潜在分支中的问题改进后的均方误差。3)输入"mae" 使用绝对平方误差,使用节点的中值来最小化L1损失其他属性也包括feature_importances_,接口有原创 2021-08-04 17:54:45 · 724 阅读 · 0 评论 -
sklearn入门——分类树
概述据说这个教程是侧重于应用的,原理的我还没搞太懂,吃瓜也就看了前六章,也是模模糊糊。。。。。流程是:实例化,建立评估模型对象;通过模型接口训练模型;通过模型接口提取需要的信息。对应的代码就是:from sklearn import treeclf = tree.DecisionTreeClassifier()clf = clf.fit(x_train,y_train)result = clf.score(x_test,y_test)...原创 2021-08-04 15:50:53 · 266 阅读 · 0 评论