目录
一、有监督学习
有监督学习是指利用经验(历史数据)学习表示事物的模型,这里介绍有监督学习中的分类问题和回归问题。
1.回归分析
预测性建模分析技术,通过样本数据学习目标变量和自变量之间的因果关系建立数学表示模型
上例子:房价预测,广告收益预测
实现代码如下,给出大框架,篇幅有限,代码细节自己跑,实现代码大致如下的时候注意补充哦
from sklearn.linear_model import LinearRegression
#模型初始化:
Linreg = LinearRegression()
#模型学习:
linreg.fit(x,y)
#模型预测:
y_pred = linreg.predict(x)
#数据集切分:
from sklearn import model_selection
x_train,x_test,y_train,y_test=model_selection.train_test_split(x,y,test_size=0.3,random_state = 1)
#评估性能
#RMSE
err = metrics.mean_squared_error(y,y_pred)
#R^2
decision_score = linreg.score(x,y)
2.分类分析
原理很抽象,不如先看例子品一品,算法很多,列举常用的
上例子:垃圾短信识别,车牌识别,还贷款能力预测
1、决策树
决策树实现代码
#模型初始化:
clf = tree.DecisionTreeClassifier()
#模型学习:
clf.fit(x,y)
#模型预测:
y_pred = clf.predict(x)
#数据集切分:
from sklearn import model_selection
x_train,x_test,y_train,y_test=model_selection.train_test_split(x,y,test_size=0.3,random_state = 1)
#评估性能
#Accuracy
clf.score(x,y)
#混淆矩阵
metrics.classificatinon_matrix(y,y_pred)
#分类性能报告
metrics.classfication_report(y,y_pred)
2、支持向量机(SVM)——代码
#模型初始化:
clf = svm.SVM(kernel=,gamma=,c...)
#模型学习:
clf.fit(x,y)
#模型预测:
y_pred = clf.predict(x)
#数据集切分:
from sklearn import model_selection
x_train,x_test,y_train,y_test=model_selection.train_test_split(x,y,test_size=0.3,random_state = 1)
#评估性能
#Accuracy
clf.score(x,y)
#混淆矩阵
metrics.classificatinon_matrix(y,y_pred)
#分类性能报告
metrics.classfication_report(y,y_pred)
二、无监督学习
无监督学习倾向于对事物本身特性的分析,这里介绍数据降维和聚类。
1.聚类分析
代码如下(示例):
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import ssl
ssl._create_default_https_context = ssl._create_unverified_context
2.数据降维
代码如下(示例):
data = pd.read_csv(
'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())
还有集成学习将在后续博客中补充~