使用神经网络实现葡萄酒数据集的分类分析

error 10086.

已于 2022-12-09 18:50:02 修改

阅读量5.6k

点赞数 30

分类专栏：数据科学导论文章标签： python 开发语言

于 2022-12-09 18:49:37 首次发布

本文链接：https://blog.csdn.net/weixin_63669071/article/details/128257437

版权

数据科学导论专栏收录该内容

3 篇文章

订阅专栏

一、实验目的

二、实验环境

三、实验内容和过程

一、实验目的

掌握神经网络及深度学习建模分析
掌握使用神经网络实现分类的方法
掌握使用Keras框架实现深度学习的方法
了解各分类器之间的差异

二、实验环境

操作系统：Windows

应用软件：anaconda jupyter

三、实验内容和过程

关于solver：

-lbfgs：机器学习中解决函数最优化问题比较常用的手段，在牛顿法基础上提出的一种求解函数根的算法。牛顿法与拟牛顿法学习笔记（五）L-BFGS 算法_皮果提的博客-CSDN博客_bfgs算法

-sgd：随机梯度下降，每次选择一个mini-batch，而不是全部样本，使用梯度下降来更新模型参数。它解决了随机小批量样本的问题。

-adam： Kingma, Diederik, and Jimmy Ba提出的机遇随机梯度的优化器，基本解决了之前提到的梯度下降的一系列问题，比如随机小样本、自适应学习率、容易卡在梯度较小点等问题。注意：默认solver ‘adam’在相对较大的数据集上效果比较好（几千个样本或者更多），对小数据集来说，lbfgs收敛更快效果也更好。

关于activation（p121）：

-identity：f(x) = x

-logistic：其实就是sigmod,f(x) = 1 / (1 + exp(-x))

-tanh：f(x) = tanh(x)

-relu：f(x) = max(0, x)

例题1：使用神经网络实现葡萄酒数据集的分类分析，分类值为葡萄酒质量，（1-10之间），选择不同的优化权重算法（solver）进行模型比较并分析。（包含模型分类评估） *使用“quality”列

代码如下（示例）：

#第一步 读入数据，划分训练集和测试集
import pandas as pd
import numpy as np
filename='data\wine.csv'
data=pd.read_csv(filename,index_col='idx')
data.drop('good_or_not',axis=1,inplace=True)
x = data.drop('quality', axis=1).values.astype(float)
y = data['quality'].values.astype(float)
from sklearn import model_selection#分割训练集和测试集
X_train,X_test,y_train,y_test = model_selection.train_test_split(x,y,test_size=0.5,random_state=1)#划分训练/测试集
print(X_train)

结果：

#第二步 创建神经网络分类器，训练网络节点连接权重及偏置项（此处用到lbfgs函数）
from sklearn.neural_network import MLPClassifier
mlp = MLPClassifier(solver='lbfgs',alpha=1e-5,hidden_layer_sizes=(5, 5),random_state=1)#表示有两个隐藏层，每层神经元个数分别为3、3
mlp.fit(X_train,y_train)
print(mlp.score(X_test,y_test))#mlp.score查看模型评分，返回给定测试数据和标签上的平均准确度

结果：

#第三步 分类器性能评估
from sklearn import metrics
y_predicted = mlp.predict(X_test)
print("Classification report for %s" % mlp)
print(metrics.classification_report(y_test, y_predicted) )
print( "Confusion matrix:\n", metrics.confusion_matrix(y_test, y_predicted) )

#重新计算，修改为sgd函数
#创建神经网络分类器，训练网络节点连接权重及偏置项
mlp = MLPClassifier(solver='sgd',alpha=1e-5,hidden_layer_sizes=(3,3),random_state=1)#表示有两个隐藏层，每层神经元个数分别为3、3
mlp.fit(X_train,y_train)
print(mlp.score(X_test,y_test))#mlp.score查看模型评分，返回给定测试数据和标签上的平均准确度

结果：

#分类器性能评估
y_predicted = mlp.predict(X_test)
print("Classification report for %s" % mlp)
print(metrics.classification_report(y_test, y_predicted) )
print( "Confusion matrix:\n", metrics.confusion_matrix(y_test, y_predicted) )

Keras是一个使用Python开发的多层神经网络API，能方便地以开源深度学习库，作为后端运行。Keras具有高度模块化、简单及可扩充等特性，支持简易和快速的原型设计。
Keras采用模型构建神经网络。序贯（Sequential）模型是简单的线性模型，由多个网络层按输出顺序线性堆叠而成，只有一个输出。函数式（Functional）模型则在序列模型的基础上，允许用户定义多输出、非循环有向或具有共享层的结构。

基于Keras训练神经网络模型可以按照以下三个步骤进行（以序贯模型为例）：
•定义神经网络的结构，说明组成网络的层类型、参数；
•定义神经网络的损失函数、优化器、性能评估指标，并编译模型；
•使用数据集训练模型、预测、性能分析。

1.Keras模型常用层基于Keras构建神经网络一般包括以下通用层。

（1）Dense层：全连接层，其节点与下一层节点完全连接。 Dense（units，input_dim,…）

（2）Activation层：激活层，对上一层的输出施加激活函数。常见的激活函数有softmax，relu，tanh，sigmoid等。

（3）Dropout层：中断层，在训练过程中，每次更新参数时按照一定的概率，随即断开给定百分比（p）的输入神经元连接，用于防止过拟合。

2.Keras模型常用函数 Keras提供了神经网络模型编译、训练及性能评估的各类函数，使用方法如下。

（1）模型编译：model.compile(loss,optimizer,metrics,…)

（2）模型训练： model.fit(x,y,batch_size,epochs,verbose,validation_split,validation_data,…)

（3）模型评估:model.evaluate(x_test,y_test,verbose,...) 返回模型指定的loss和metrics。

（4）模型预测:model.predict(x_test,verbose,...)

例题2：基于Keras建立深度神经网络模型，采取不同的数据集划分比例（9:1，8:2，7:3），为葡萄酒数据集训练分类器并进行分析。（包含模型分类性能的评估）

*使用“good_or_not”列（此处仅展示比例为9:1的情况）

import pandas as pd
filename='data\wine.csv'
data=pd.read_csv(filename,index_col='idx')
data.loc[data['good_or_not']=='good','good_or_not']=1
data.loc[data['good_or_not']=='not','good_or_not']=0
data.drop('quality',axis=1,inplace=True)
x = data.drop('good_or_not', axis=1).values.astype(float)
y = data['good_or_not'].values.astype(float)
from keras.models import Sequential
from keras.layers import Dense, Activation
import numpy as np
from sklearn.model_selection import train_test_split
# 定义模型结构
model = Sequential()
model.add(Dense(units=16, input_dim=11))
model.add(Activation('relu'))
model.add(Dense(16))
model.add(Activation('relu'))
model.add(Dense(3))
model.add(Activation('softmax'))
#定义模型损失函数和优化器，并编译
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=["accuracy"])

#1、深度学习模型，输入输出都为多维张量，统一使用小写字母 x,y,划分比例9:1
x_train, x_test, y_train, y_test= train_test_split(x, y, train_size=0.9, test_size=0.1, random_state=0)
from keras.utils import np_utils
y_train_ohe = np_utils.to_categorical(y_train, num_classes = 3)
y_test_ohe = np_utils.to_categorical(y_test, num_classes = 3)

#2、模型的训练及评估
model.fit(x_train, y_train_ohe, epochs=20, batch_size=1, verbose=2, validation_data=(x_test,y_test_ohe))

#3、评估模型
loss, accuracy = model.evaluate(x_test, y_test_ohe,verbose=2)
print('loss = {},accuracy = {} '.format(loss,accuracy) )

#4、查看预测结果
prob = model.predict(x_test,verbose=2)
#classes = model.predict_classes(x_test,verbose=2)
classes=np.argmax(prob,axis=1)
print('测试样本数：',len(classes))
print("分类概率:\n",prob)
print("分类结果：\n",classes)
from sklearn.metrics import classification_report
print('分类性能报告如下：')
print(classification_report(list(y_test),list(classes)))