YoJaack_-CSDN博客

原创 K-means聚类算法(基于轮廓系数来选择n_cluster)

轮廓系数：如果一个簇中的大多数样本具有比较高的轮廓系数，则簇会有较高的总轮廓系数，则整个数据集的平均轮廓系数越高，则聚类是合适的。如果许多样本点具有低轮廓系数甚至负值，则聚类是不合适的，聚类的超参数K可能设定得太大或者太小。现在有这样的散点图，如果采用KMeans聚类的话，如何选择合适的n_cluster（簇）呢？我们先假设n_cluster=4from sklearn.cluster ...

2020-01-13 16:24:55 7425 1

原创 PCA降维

维度和降维数组中的每一张表（一张表最多二维），都可以是一个特征矩阵或一个DataFrame，这些结构永远只有一张表，所以一定有行列，其中行是样本，列是特征。针对每一张表，维度指的是样本的数量或特征的数量，一般无特别说明，指的都是特征的数量。除了索引之外，一个特征是一维，两个特征是二维，n个特征是n维。降维算法中的”降维“，指的是降低特征矩阵中特征的数量。降维的目的是为了让算法运算更快，效果更好...

2020-01-12 15:17:19 833

原创 sklearn中的特征工程（过滤法、嵌入法和包装法）

特征工程的第一步：理解业务如果特征比较少且容易理解，我们可以自行判断特征的取舍，如前面的泰坦尼克号数据集。但是，在真正的数据应用领域，比如金融，医疗，电商，我们的数据不可能像泰坦尼克号数据的特征这样少，这样明显。那如果遇见极端情况，我们无法依赖对业务的理解来选择特征，该怎么办呢？我们有四种方法可以用来选择特征：过滤法，嵌入法，包装法，和降维算法Filter过滤法过滤方法通常用作预处理步骤，...

2019-12-10 12:33:36 3739 7

原创 sklearn中的数据预处理

数据挖掘的五大流程1、获取数据2、数据预处理数据预处理是从数据中检测，纠正或删除损坏，不准确或不适用于模型的记录的过程可能面对的问题有：数据类型不同，比如有的是文字，有的是数字，有的含时间序列，有的连续，有的间断。也可能，数据的质量不行，有噪声，有异常，有缺失，数据出错，量纲不一，有重复，数据是偏态，数据量太大或太小数据预处理的目的：让数据适应模型，匹配模型的需求3、特征工程特征工程是...

2019-12-05 13:03:50 890

原创机器学习中调参的基本思想和调参实例

机器学习中调参的基本思想第一步：找目标一般来说，这个目标是提升某个模型评估指标，比如对于随机森林来说，我们想要提升的是模型在未知数据上的准确率（由score或oob_score_来衡量）。找准了这个目标，我们就需要思考：模型在未知数据上的准确率受什么因素影响？在机器学习中，我们用来衡量模型在未知数据上的准确率的指标，叫做泛化误差（Genelization error）。而泛化误差，收到模型的...

2019-12-04 14:41:53 1007 2

原创用随机森林回归填补缺失值（特征矩阵中的缺失值）

导入完整的数据集并探索以波士顿数据集为例import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.datasets import load_bostonfrom sklearn.impute import SimpleImputer #用来填补缺失值的类from sklearn....

2019-12-03 15:24:10 4229 4

原创随机森林在sklearn中的实现和调参

集成算法的概述集成算法会考虑多个评估器的建模结果，汇总之后得到一个结果，以此来获取比单个模型更好的回归或分类表现。随机深林是袋装法的代表模型RandomForestClassifier类随机森林分类器sklearn.ensemble.RandomForestClassifier参数决策树中遇到过的参数其他参数n_estimators越大，模型的效果往往越好。一般0~200之...

2019-12-01 20:30:06 795 1

原创 Python的科学计算包Numpy

一、地址与指向import numpy as npa = np.arange(12)b = a # a和b的地址值相同c = a.view()# a和c的地址值不同，但是指向相同d = a.copy()# a和d的地址值不同，指向也不同二、赋值操作data = np.sin(np.arange(20)).reshape(5,4)代码结果为[[ 0. ...

2019-11-23 16:59:11 167

原创 Python可视化库Matplotlib的使用（折线图、柱状图、散点图）

一、导入数据首先要导入数据，使用pandas库里的read_csv方法，将 .csv后缀的文件中的数据进行导入，导入后的数据结构是DataFrame。（DataFrame是pandas库中的一种数据结构，它类似excel，是一种二维表）import pandas as pdunrate = pd.read_csv("unrate.csv")# 如果导入的.csv文件不在当前代码所在的文件下...

2019-11-23 15:53:06 1137 1

xlperpetual的博客