自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 K-means聚类算法(基于轮廓系数来选择n_cluster)

轮廓系数:如果一个簇中的大多数样本具有比较高的轮廓系数,则簇会有较高的总轮廓系数,则整个数据集的平均轮廓系数越高,则聚类是合适的。如果许多样本点具有低轮廓系数甚至负值,则聚类是不合适的,聚类的超参数K可能设定得太大或者太小。现在有这样的散点图,如果采用KMeans聚类的话,如何选择合适的n_cluster(簇)呢?我们先假设n_cluster=4from sklearn.cluster ...

2020-01-13 16:24:55 7367 1

原创 PCA降维

维度和降维数组中的每一张表(一张表最多二维),都可以是一个特征矩阵或一个DataFrame,这些结构永远只有一张表,所以一定有行列,其中行是样本,列是特征。针对每一张表,维度指的是样本的数量或特征的数量,一般无特别说明,指的都是特征的数量。除了索引之外,一个特征是一维,两个特征是二维,n个特征是n维。降维算法中的”降维“,指的是降低特征矩阵中特征的数量。降维的目的是为了让算法运算更快,效果更好...

2020-01-12 15:17:19 818

原创 sklearn中的特征工程(过滤法、嵌入法和包装法)

特征工程的第一步:理解业务如果特征比较少且容易理解,我们可以自行判断特征的取舍,如前面的泰坦尼克号数据集。但是,在真正的数据应用领域,比如金融,医疗,电商,我们的数据不可能像泰坦尼克号数据的特征这样少,这样明显。那如果遇见极端情况,我们无法依赖对业务的理解来选择特征,该怎么办呢?我们有四种方法可以用来选择特征:过滤法,嵌入法,包装法,和降维算法Filter过滤法过滤方法通常用作预处理步骤,...

2019-12-10 12:33:36 3709 7

原创 sklearn中的数据预处理

数据挖掘的五大流程1、获取数据2、数据预处理数据预处理是从数据中检测,纠正或删除损坏,不准确或不适用于模型的记录的过程可能面对的问题有:数据类型不同,比如有的是文字,有的是数字,有的含时间序列,有的连续,有的间断。也可能,数据的质量不行,有噪声,有异常,有缺失,数据出错,量纲不一,有重复,数据是偏态,数据量太大或太小数据预处理的目的:让数据适应模型,匹配模型的需求3、特征工程特征工程是...

2019-12-05 13:03:50 884

原创 机器学习中调参的基本思想和调参实例

机器学习中调参的基本思想第一步:找目标一般来说,这个目标是提升某个模型评估指标,比如对于随机森林来说,我们想要提升的是模型在未知数据上的准确率(由score或oob_score_来衡量)。找准了这个目标,我们就需要思考:模型在未知数据上的准确率受什么因素影响?在机器学习中,我们用来衡量模型在未知数据上的准确率的指标,叫做泛化误差(Genelization error)。而泛化误差,收到模型的...

2019-12-04 14:41:53 964 2

原创 用随机森林回归填补缺失值(特征矩阵中的缺失值)

导入完整的数据集并探索以波士顿数据集为例import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.datasets import load_bostonfrom sklearn.impute import SimpleImputer #用来填补缺失值的类from sklearn....

2019-12-03 15:24:10 4185 4

原创 随机森林在sklearn中的实现和调参

集成算法的概述集成算法会考虑多个评估器的建模结果,汇总之后得到一个结果,以此来获取比单个模型更好的回归或分类表现。随机深林是袋装法的代表模型RandomForestClassifier类随机森林分类器sklearn.ensemble.RandomForestClassifier参数决策树中遇到过的参数其他参数n_estimators越大,模型的效果往往越好。一般0~200之...

2019-12-01 20:30:06 778 1

原创 Python的科学计算包Numpy

一、地址与指向import numpy as npa = np.arange(12)b = a # a和b的地址值相同c = a.view()# a和c的地址值不同,但是指向相同d = a.copy()# a和d的地址值不同,指向也不同二、赋值操作data = np.sin(np.arange(20)).reshape(5,4)代码结果为[[ 0. ...

2019-11-23 16:59:11 162

原创 Python可视化库Matplotlib的使用(折线图、柱状图、散点图)

一、导入数据首先要导入数据,使用pandas库里的read_csv方法,将 .csv后缀的文件中的数据进行导入,导入后的数据结构是DataFrame。(DataFrame是pandas库中的一种数据结构,它类似excel,是一种二维表)import pandas as pdunrate = pd.read_csv("unrate.csv")# 如果导入的.csv文件不在当前代码所在的文件下...

2019-11-23 15:53:06 1112 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除