机器学习实验三：顾客购买服装的分析与预测

最新推荐文章于 2023-03-31 11:24:05 发布

shallen.

最新推荐文章于 2023-03-31 11:24:05 发布

阅读量1.2k

点赞数

分类专栏：机器学习实验文章标签：决策树算法

本文链接：https://blog.csdn.net/weixin_51556077/article/details/128769331

版权

机器学习实验专栏收录该内容

9 篇文章 14 订阅

订阅专栏

实验要求

采用决策树算法，对“双十一”期间顾客是否买服装的数据集进行分析与预测。顾客购买服装数据集：包含 review（商品评价变量）、discount（打折程度）、needed（是否必需）、shipping（是否包邮）、buy（是否购买）。

【实验要求】

1.读取顾客购买服装的数据集（数据集路径：data/data76088/3_buy.csv），探索

数据。

2.分别用 ID3 算法和 CART 算法进行决策树模型的配置、模型的训练、模型的预测、

模型的评估。

3.扩展内容（选做）：对不同算法生成的决策树结构图进行可视化。

实验过程

1.对该题目的理解

本项目是分别用ID3算法和CART算法进行决策树模型的配置，训练，然后对“双十一”期间顾客是否买服装的数据集进行分析与预测。其中顾客购买服装数据集包含：review（商品评价变量）、discount（打折程度）、needed（是否必需）、shipping（是否包邮）、buy（是否购买）。

2.实现过程

（1）导入包。

代码如下：

import pandas as pd
import numpy as np
from sklearn import tree
from sklearn import metrics
from sklearn.model_selection import train_test_split

（2）读取顾客购买服装的数据集（数据集路径：data/data76088/3_buy.csv），探索数据。

代码如下：

data = pd.read_csv("data/data76088/3_buy.csv")
print("data:",data)

（3）划分数据集，测试集。

代码如下：

x, y = np.split(data, indices_or_sections=(4,), axis=1)
x_train, x_test, y_train, y_test = train_test_split(
    x, y, test_size=0.30)
print("x_train.shape:", x_train.shape)
print("y_train.shape:", y_train.shape)
print("x_test.shape:", x_test.shape)
print("y_test.shape:", y_test.shape)

（4）分别用ID3算法和CART算法进行决策树模型的配置、模型的训练、模型的预测、模型的评估。

代码如下：

clf_CART = tree.DecisionTreeClassifier(
    criterion='gini', max_depth=4)  # CART基尼系数
clf_ID3 = tree.DecisionTreeClassifier(
    criterion='entropy', max_depth=4)  # ID3信息熵
# ### 训练模型
clf_CART.fit(x_train, y_train)  # 模型训练
clf_ID3.fit(x_train, y_train)  # 模型训练
# ### 模型预测
predictions_CART = clf_CART.predict(x_test)  # 模型测试
print("predictions_CART", predictions_CART)
predictions_ID3 = clf_ID3.predict(x_test)  # 模型测试
print("predictions_ID3", predictions_ID3)
# ### 模型评估
print('CART的准确率: %s' % accuracy_score(y_test, predictions_CART))
print('ID3的准确率: %s' % accuracy_score(y_test, predictions_ID3))