使用scikit-learn构建模型
任务一:使用scikit-learn处理wine数据集和wine_quality数据集
需求说明:wine 数据集和 wine_quality 数据集是两份和酒有关的数据集。wine数据集包含 3 种不同起源的葡萄酒的记录,共 178 条。其中,每个特征对应的葡萄酒的每种化学成分,并且都属于连续型数据。通过化学分析可以推断葡萄酒的起源。wine_quality 数据集共有 4898 个观察值,11 个输入特征和一个标签。其中,不同类的观察值数量不等,所有特征为连续型数据。通过酒的各类化学成分,预测该葡萄酒的评分。
任务二:构建基于wine数据集的K-means聚类模型
需求说明:wine 数据集的葡萄酒总共分为 3 种,通过将 wine 数据集的数据进行聚类,聚类为 3 个簇,能够实现葡萄酒的类别划分。
任务三:构建基于wine数据集的SVM聚类模型
需求说明:wine 数据集中的葡萄酒总共分为 3 种,将 wine 数据集划分为训练集和测试集,使用训练集训练 SVM 分类模型,并使用训练完成的模型预测测试集的葡萄酒类别归属。
任务四:构建基于wine_quality数据集的SVM聚类模型
需求说明:wine_quality 数据集的葡萄酒评分在 1~10 之间,构建线性回归模型与梯度提升回归模型,训练 wine_quality 数据集的训练集数据,训练完成后预测测试集的葡萄酒评分。结合真实评分,评价构建的两个回归模型的好坏。
4.1 任务一步骤:
(1)使用 pandas 库分别读取 wine 数据集和 wine_quality 数据集
(2)将 wine 数据集和 wine_quality 数据集的数据和标签拆分开
(3)将 wine_quality 数据集划分为训练集和测试集,设置test_size=0.1,random_state=6
(4)使用标准差标准化 wine 数据集和 wine_quality 数据集
(5)对 wine 数据集和 wine_quality 数据集进行PCA降维,保留5个维度,将降维后的标准化 wine 测试集和标准化 wine_quality 测试集输出。
##使用sklearn处理wine和wine_quality数据集
##使用sklearn处理wine和wine_quality数据集
import pandas as pd
#1、读取数据集
wine = pd.read_csv(’./data/wine.csv’)
#winequality = pd.read_csv(’./data/winequality.csv’)
winequality = pd.read_csv(’./data/winequality.csv’,sep = ‘;’)
#2、数据和标签拆分开
wine_data=wine.iloc[:,1:]
wine_target=wine[‘Class’]
winequality_data=winequality.iloc[:,:-1]
winequa