scikit-learn用于数据挖掘和机器学习等领域
包含了大部分传统的机器学习方法
于2006年问世于Google
它是基于Python语言的
它是基于NumPy, SciPy, and matplotlib工具包的
主要有以下六种功能:
分类(Classification)
包括支持向量机分类(SVC)、最近邻法(nearest neighbors)、决策树(decision tree)、随机森林(random forest)等等
回归(regression)
包括线性回归、多项式回归(polynomial regression),支持向量回归(SVR)、岭回归(ridge regression)、lasso回归等等
聚类(clustering)
k均值(k-means)、谱聚类(spectral clustering)、mean-shift等方法
降维(Dimensionality reduction)
作用是减少样本向量的维数
比如从200维降到15维
主要算法:主成分分析(PCA)、独立成分分析(ICA)等方法
模型选择(model selection)
作用:评估模型,选择模型,交叉验证,调参等等,网格搜索grid search等
预处理(preprocessing)
用于数据的归一化(normalization)、数据的标准化(standardization)、去均值化(mean removal)、白化(Whitening)、二值化(Binarization)
总之就是随对数据进行预处理