使用python语言的sklearn包实现基础的机器学习操作是很简单的。毕竟算法部分的源码已经写好了,我们只需要调用即可。
基础机器学习操作无非就是四大部分:
- 导入相应的包及数据
- 数据预处理;
- 模型建立及拟合
- 模型评估及预测
1、导入相应的包及数据
首先我们进行第一步,导包及数据。sklearn中主要包括六大类,这个到官网上的主页面一下就能看到。这里我导入了sklearn中的五个函数,其中StandardScaler用作数据标准化、train_test_split用作数据分割训练集和测试集、RandomForestRegressor用作回归模型的建立。
1.1导包
import numpy as np
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from matplotlib import pyplot as plt
from xgboost import XGBRegressor as XGBR
1.2导入数据
data = pd.read_csv(r'./data.csv')
data.info()
2、数据预处理
数据预处理的基础必备操作包括缺失