1. 转换器 – 特征工程的父类
1.1 特征工程的步骤
- 实例化 (实例化的是一个转换器类(Transformer))
- 调用fit_transform(对于文档建立分类词频矩阵,不能同时调用)
1.2 定义
把特征工程的接口称之为转换器,其中转换器调用的形式:
- fit_transform
- fit
- transform
fit_transform的作用相当于fit加上transform。
以标准化为例,(x-mean)/ std
- fit():计算 每一列的平均值、标准差
- transform():(x-mean)/ std 进行最终的转换
2. 估计器
2.1 概述
在sklearn中,估计器(estimator)是一个重要的角色,是一类实现了算法的API
- 1、用于分类的估计器:
- sklearn.neighbors k-近邻算法
- sklearn.naive_bayes 贝叶斯
- sklearn.linear_model.LogisticRegression 逻辑回归
- sklearn.tree 决策树与随机森林
- 2、用于回归的估计器:
- sklearn.linear_model.LinearRegression 线性回归
- sklearn.linear_model.Ridge 岭回归
- 3、用于无监督学习的估计器
- sklearn.cluster.KMeans 聚类
2.2 估计器的工作流程
- 实例化一个estimator
- estimator.fit(x_train, y_train) 计算 —— 调用完毕,模型生成
- 模型评估
3.1 直接对比真实值与预测值
y_predict = estimator.predict(x_test)
y_test == y_predict
3.2 计算准确率
accuracy = estimator.score(x_test, y_test)