什么是监督学习
监督学习最关键的一个特征就是会给机器学习算法正确答案。这个意思就是,在使用机器学习算法的时候,会给算法一对输入,这个输入包括:input x,以及 对应的期望输出output y(也就是所谓的标签label),通过这种学习,最终算法会在给定一个输入x的时候,预测对应的输出。
下面是监督学习的例子:
比如输入一个文本,让算法预测,这个正面还是负面评价
比如输入邮件,让算法预测,这是垃圾邮件还是正常邮件
比如输入用户信息和广告,预测用户是否会点击
比如输入雷达影像,输出其他汽车的位置
下面深入了解下监督学习
监督学习
我们训练一个算法,预测房价,首先我们需要收集一些数据,比如房屋的面积和房价,数据看起来是这样的:
有了这些数据以后,想预测比如房屋大小在750的时候,房子的价格大概是多少的时候,应该怎么做呢?
首先是把这些数据拟合成一条直线,根据这条直线就可以计算出数据在其他值的价格。
当然这条拟合线并不一定是直线,也有可能是曲线,后面的章节会学习到如何选用直线或者曲线或者更复杂的线来拟合这些数据。
回归
上面这种特定类型算法就叫做回归。
这种算法的学习任务就是要预测一个值,这个值有无限可能,可能是任何一个数字。这是回归任务的重要特征。
分类
还有一种监督学习方法,叫做分类。
比如输入一个文本,让机器判定这个评价是正面的还是负面的。
比如:今天电影很好看。这是正面的
比如:电影情节拖沓,漫长冗余。这个评价就是负面的。
这种分类通常是拟合一条线或者更复杂的函数,来划定区域,在某个特定的区域是一种类型,另外的区域就是另外的类型:
这种算法的学习任务,输出只有几种类型,当然分类可以超过三种或者众多种类,但是都是有限的集合。不像是回归,有无限可能。
波士顿房价预测-实战
下面是波士顿房价预测实战,使用sklearn库,并使用KNN LINEAR等算法来预测房价
加载模块
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split # 对数据集切分
from sklearn.metrics import r2_score
# 机器算法模型
from sklearn.neighbors import KNeighborsRegressor # KNN,即K近邻算法
from sklearn.linear_model import LinearRegression # 多元线性回归算法
from sklearn.linear_model import Ridge # 线性回归算法Ridge回归,岭回归
from sklearn.linear_model import Lasso # 线性回归算法Lasso回归,可用作特征筛选
from sklearn.tree import DecisionTreeRegressor # 决策树,既可以做分类也可以做回归(本文主要用于分类问题)
from sklearn.svm import SVR # 支持向量机
import pandas as pd
import numpy as np
读取数据
data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]
print(data.shape)
# 切割数据样本集合测试集
X_train, x_test, y_train, y_true = train_test_split(data, target, test_size=0.2) # 20%测试集;80%训练集
# 可视化
data_df = pd.DataFrame(data)
data_df['房价值'] = target
print(data_df.head(10))
创建KNN Linear等学习模型&训练模型
# 创建学习模型
knn = KNeighborsRegressor()
linear = LinearRegression()
ridge = Ridge()
lasso = Lasso()
decision = DecisionTreeRegressor()
svr = SVR()
# 训练模型
knn.fit(X_train, y_train) # 学习率、惩罚项都封装好了
linear.fit(X_train, y_train)
ridge.fit(X_train, y_train)
lasso.fit(X_train, y_train)
decision.fit(X_train, y_train)
svr.fit(X_train, y_train)
预测数据
y_pre_knn = knn.predict(x_test)
y_pre_linear = linear.predict(x_test)
y_pre_ridge = ridge.predict(x_test)
y_pre_lasso = lasso.predict(x_test)
y_pre_decision = decision.predict(x_test)
y_pre_svr = svr.predict(x_test)
评分以及绘图
knn_score = r2_score(y_true, y_pre_knn)
linear_score = r2_score(y_true, y_pre_linear)
ridge_score = r2_score(y_true, y_pre_ridge)
lasso_score = r2_score(y_true, y_pre_lasso)
decision_score = r2_score(y_true, y_pre_decision)
svr_score = r2_score(y_true, y_pre_svr)
# 绘图
# KNN
plt.plot(y_true, label='true')
plt.plot(y_pre_knn, label='knn')
plt.legend()
# Linear
plt.plot(y_true, label='true')
plt.plot(y_pre_linear, label='linear')
plt.legend()
# Ridge
plt.plot(y_true, label='true')
plt.plot(y_pre_ridge, label='ridge')
plt.legend()
# Lasso
plt.plot(y_true, label='true')
plt.plot(y_pre_lasso, label='lasso')
plt.legend()
# Decision
plt.plot(y_true, label='true')
plt.plot(y_pre_decision, label='decision')
plt.legend()
# SVR
plt.plot(y_true, label='true')
plt.plot(y_pre_svr, label='svr')
plt.legend()
plt.show()
最终结果
简单学习后,效果还是不错的。