Python深度学习（电影评论分类：二分类问题）--学习笔记（五）_relu是深度学习最常用的激活函数,如果没有relu等激活函数(非线性),dense层将只包-CSDN博客

本文链接：https://blog.csdn.net/xiekengli8279/article/details/109472500

本文通过IMDB数据集，详细介绍了如何使用Keras进行深度学习的电影评论情感分类，涵盖数据预处理、网络构建、训练验证以及预测。讨论了全连接层、激活函数、损失函数和优化器的选择，强调了模型在验证集上的性能监控以防止过拟合。

摘要由CSDN通过智能技术生成

3.4 电影评论分类：二分类问题

3.4.1 IMDB数据集

本节使用IMDB数据集，它包含来自互联网电影数据库（IMDB）的50000条严重两极分化的评论。数据集被分为用于训练的25000条评论与用于测试的25000条评论，训练集和测试集都包含50%的正面评论和50%的负面评论。
不应该将训练机器学习模型的同一批数据再用于测试模型！模型在训练数据上的表现很好，而你真正关系的是模型在新数据上的性能（因为你已经知道了训练数据对应的标签，显然不再需要模型来进行预测）。例如，你的模型最终可能只是记住了训练样本和目标值之间的映射关系，但这对前所未见的数据上进行预测毫无作用。
与MNIST数据集一样，IMDB数据集也内置于Keras库。它已经过预处理：评论（单词序列）已经被转换为整数序列，其中每个整数代表字典中的某个单词。

# 记载IMDB数据集
from keras.datasets import imdb

(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)

参数num_words=10000的意思是仅保留训练数据中前10000个最常出现的单词。低频单词将被舍弃。这样得到的向量数据不会太大，便于处理。
train_data和test_data这两个变量都是评论组成的列表，每条评论又是单词索引组成的列表（表示一系列单词）。train_labels和test_labels都是0和1组成的列表，其中0代表负面（negative），1代表正面（positive）。
由于限定为前10000个最常见的单词，单词索引不会超过10000。

# 将评论解码为英文单词
word_index = imdb.get_word_index() # word_index是一个将单词映射为整数索引的字典
reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])
decoded_review = ' '.join([reverse_word_index.get(i-3, '?') for i in train_data[0]]) # 将评论解码。注意，索引减去了3，因为0、1、2是为"padding"、"start of sequence"(序列开始)、"unknown"(未知词)分别保留的索引
print(decoded_review)

3.4.2 准备数据

你不能将整数序列直接输入神经网络。你需要将列表转换为张量：（1）填充列表，使其具有相同的长度，再将列表转换成形状为（samples, word_indices）的整数张量，然后网络第一层使用能处理这种整数张量的层（即Embeeding层）；（2）对列表进行one-hot编码，将其转换为0和1组成的向量。

import numpy as np

def vectorize_sequences(sequences, dimension=10000):
    results = np.zeros((len(sequences), dimension)) # 创建一个形状为(len(sequences), dimension)的零矩阵
    for i, sequence in enumerate(sequences):
        results[i, sequence] = 1. # 将results[i]的指定索引设为1

    return results

x_train = vectorize_sequences(train_data) # 将训练数据向量化
x_test = vectorize_sequences(test_data) # 将测试数据向量化

将标签向量化：

y_train = np.asarray(train_labels).astype('float32')
y_test = np.asarray(test_labels).astype(