一、Sklearn介绍
Scikit-learn(简称Sklearn)是一种基于Python语言的开源机器学习工具。它为大家提供了大量的机器学习算法,可用于数据挖掘及数据分析、数据挖掘和数据建模等领域。Sklearn建立在Numpy、SciPy以及Matplotlib之上,它实现了一种干净、一致且流畅的API(应用程序编程接口),可让用户迅速上手使用不同的模型算法进行机器学习。
Sklearn中提供了分类(Classification)、聚类(Clustering)、降维(Dimensionality Reduction)、回归(Regression)等多种机器学习算法,可供用户根据自己的需求选择合适的算法进行数据建模。
二、Sklearn主要功能介绍
1、数据预处理
针对数据的各种情况,Sklearn提供了一些功能,如:标签编码、热独编码、归一化、标准化等等。这些处理功能可以使数据更适合机器学习算法进行处理。
from sklearn.preprocessing import LabelEncoder le = LabelEncoder() le.fit(["apple", "banana", "pear"]) le.transform(["apple", "banana", "pear"])
2、数据建模
Sklearn中提供了很多经典的机器学习算法,如:决策树、朴素贝叶斯、支持向量机、K-近邻、随机森林等等。通过简单的几行代码调用模型API,即可完成模型建立和训练。
from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_test_split