Sklearn机器学习

#机器学习数据挖掘
##1、数据预处理
基础查看信息

  1. 数据读取:pandas.read_excel/read_table/read_csv
  2. 查看数据源基本情况:pandas:data.describe()
  3. 查看数据的列信息:pandas:data.columns
  4. 查看数据量和数据类型信息:pandas:data.info()
    sklearn预处理
  5. 标准化:scale、standardScaler
  6. 固定范围缩放:MinMaxScaler和MaxAbsScaler
  7. 非线性转换:QuantileTransformer
  8. 归一化:normalize
  9. 二值化:Binarizer
  10. 分类特征编码:OneHotEncoder
  11. 缺失值插补:Imputer
  12. 生成多项式特征:PolynomialFeatures
  13. 自定义转换器:FunctionTransformer

##2、数据探索

  1. 可视化查看主要特征的分布
  2. 交叉维度查看特征分布
  3. 缺失值补充:data.fillna(value=n)/data.loc[(data.X.isnull()), ‘X’] = databu
  4. 文本特征转换:data.loc[ (data.X.notnull()), ‘X’ ] = “Yes/1”

##3、特征选择

  1. 删除不用的特征:data.drop([‘a’,‘b’],axis=1,inplace=Ture)
  2. 单个特征查看评估:移除低方差特征:使用阈值 .8 * (1 - .8)进行选择
  3. 单变量特征选择:SelectKBest、SelectPercentile
  4. 递归式特征消除:RFECV 通过递归评估系数排序,不断删除不重要的特征
  5. 使用SelectFromModel选取特征
  6. 特征选取作为 pipeline(管道)的一部分

##4、数据建模

  1. 线性模型:clf = linear_model.LinearRegression()
  2. 逻辑回归模型:clf = linear_model.LogisticRegression()
  3. 决策树模型:clf = tree.DecisionTreeClassifier()
  4. 支持向量机模型:clf = svm.SVC()
  5. 聚类:clf = KMeans(n_clusters=2, random_state=random_state)

##5、模型评估(参数调优)

  1. 交叉验证:sklearn.model_selection.cross_val_score
  2. 参数调优:model_selection.GridSearchCV
  3. 模型量化1:sklearn.metrics.accuracy_score
  4. 模型量化2:sklearn.metrics.mean_squared_error

##6、结果可视化

  1. 混淆矩阵:sklearn.metrics.confusion_matrix
  2. 验证曲线:sklearn.model_selection.validation_curve
  3. 学习曲线:from sklearn.model_selection.learning_curve

在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值