数据预处理
又要起名字了
这个作者很懒,什么都没留下…
展开
-
用sklearn.preprocessing做数据预处理(一)——Standardization
Standardization标准化:将特征数据的分布调整成标准正态分布,亦叫高斯分布,也就是使得数据的均值为0,方差为1标准化的原因在于如果有些特征的方差过大,则会主导目标函数,从而使参数估计器无法正确地学习其他特征标准化的过程为两步:去均值的中心化(均值变为0);方差的规模化(方差变为1)。在sklearn.preprocessing中提供了一个scale的方法,可以实现以上功能。...原创 2019-03-02 17:16:26 · 528 阅读 · 0 评论 -
用sklearn.preprocessing做数据预处理(二)——Normalization
Normalization(正则化,也有部分地方叫归一化,至于哪个翻译更准确这里不做讨论,暂且称作正则化)是将样本在向量空间模型上的一个转换,经常被使用在分类与聚类中函数normalize提供了一个快速又简单的方式在一个单向量上来实现这正则化的功能。正则化有l1,l2等,这些都可以用上from sklearn import preprocessingimport numpy as np...原创 2019-03-02 17:17:24 · 3278 阅读 · 0 评论 -
用sklearn.preprocessing做数据预处理(三)——二值化
特征的二值化是指将数值型的特征数据转换成布尔型的值,可以使用类Binarizer默认是根据0来二值化,大于0的都标记为1,小于等于0的标记为0from sklearn import preprocessingimport numpy as npx = np.array([[1.,-1.,2.], [2.,0.,0.], [0.,1.,...原创 2019-03-02 17:17:57 · 881 阅读 · 0 评论 -
用sklearn.preprocessing做数据预处理(四)——OneHotEncoder
机器学习时,对于离散的特征基本就是按照one-hot(独热)编码,该离散特征有多少取值,就用多少维来表示该特征。from sklearn import preprocessingenc = preprocessing.OneHotEncoder()enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]]) # fit来学习编码enc....原创 2019-03-02 17:18:09 · 6134 阅读 · 0 评论 -
用sklearn.preprocessing做数据预处理(五)——缺失数据
在scikit-learn的模型中都是假设输入的数据是数值型的,并且都是有意义的。但如果有缺失数据是通过NAN或者空值来表示的话,就无法识别与计算了。要弥补缺失值可以使用均值、中位数、众数等。Imputer这个类可以实现。import numpy as npfrom sklearn.preprocessing import Imputerimp = Imputer(missing_valu...原创 2019-03-02 17:18:21 · 620 阅读 · 0 评论 -
用sklearn.preprocessing做数据预处理(六)——非线性特征
有时候线性的特征并不能做出完美的图形,这时候我们会尝试非线性。比如,将特征进行多项式展开import numpy as npfrom sklearn.preprocessing import PolynomialFeaturesx = np.arange(6).reshape(3,2)xarray([[0, 1], [2, 3], [4, 5]])...原创 2019-03-02 17:18:30 · 421 阅读 · 0 评论