基于tensorflow2.0的电影评论模型训练

最新推荐文章于 2024-06-14 14:28:01 发布

AI伐木累

最新推荐文章于 2024-06-14 14:28:01 发布

阅读量771

点赞数

文章标签：自然语言处理

本文链接：https://blog.csdn.net/zhangxing6666/article/details/106064749

版权

电影评论模型训练（KERAS）

使用影评的文本将影评分为正面影评和负面影评。这是一个二元或二元分类的例子，一个重要的和广泛适用的机器学习问题。本教程演示了使用TensorFlow Hub和Keras进行迁移学习的基本应用。我们将使用IMDB数据集，其中包含来自Internet电影数据库的50,000篇电影评论的文本。这些被分为25000个培训评论和25000个测试评论。训练和测试集是平衡的

导入相关的依赖

import numpy as np

import tensorflow as tf
#安装依赖包的命令
!pip install tensorflow-hub
!pip install tfds-nightly
import tensorflow_hub as hub
import tensorflow_datasets as tfds

print("Version: ", tf.__version__)
print("Eager mode: ", tf.executing_eagerly())
print("Hub version: ", hub.__version__)
print("GPU is", "available" if tf.config.experimental.list_physical_devices("GPU") else "NOT AVAILABLE")

-下载数据集

# Split the training set into 60% and 40%, so we'll end up with 15,000 examples
# for training, 10,000 examples for validation and 25,000 examples for testing.
train_data, validation_data, test_data = tfds.load(
    name="imdb_reviews", 
    split=('train[:60%]', 'train[60%:]', 'test'),
    as_supervised=True)

探索数据
让我们花一点时间来理解数据的格式。每个例子都是一个代表电影评论的句子和相应的标签。这个句子没有经过任何预处理。标签是0或1的整数值，其中0是负面评论，1是正面评论。
我们先打印10个例子。


```python
train_examples_batch, train_labels_batch = next(iter(train_data.batch(10)))
train_examples_batch

打印前十个标签数据

train_labels_batch

构建模型

embedding = "https://tfhub.dev/google/tf2-preview/gnews-swivel-20dim/1"
hub_layer = hub.KerasLayer(embedding, input_shape=[], 
                           dtype=tf.string, trainable=True)
hub_layer(train_examples_batch[:3])

结果展示
构建完整的模型

model = tf.keras.Sequential()
#第一层是tensorflow hub层，使用一个预先训练的
model.add(hub_layer)
model.add(tf.keras.layers.Dense(16, activation='relu'))
model.add(tf.keras.layers.Dense(1))

实验展示
损失函数和优化器
模型需要一个损失函数和一个用于培训的优化器。因为这是一个二元分类问题，并且模型输出一个概率(一个有sigmoid激活的单单元层)，所以我们将使用binary_cross - sentropy损失函数。
这并不是损失函数的唯一选择，例如，您可以选择mean_squared_error。但是，通常情况下，binary_cross - sentropy更适合处理概率—它测量概率分布之间的“距离”，或者在我们的例子中，测量地面真实分布和预测之间的“距离”。

#logits表示网络的直接输出 。没经过sigmoid或者softmax的概率化。from_logits=False就表示把已经概率化了的输出，重新映射回原值。log（p/(1-p)）
model.compile(optimizer='adam',
              loss=tf.keras.losses.BinaryCrossentropy(from_logits=True),
              metrics=['accuracy'])

在512个样品的小批量中培养20个epoch的模型。这是x_train和y_train张量中所有样本的20次迭代。在训练过程中，监测来自验证集的10,000个样本的模型损失和准确性:

a = model.fit(train_data.shuffle(10000).batch(512),
                    epochs=20,
                    validation_data=validation_data.batch(512),
                    verbose=1)

结果展示
评估模型
让我们看看这个模型是如何运作的。将返回两个值。损失(代表我们的误差的一个数字，越低的值越好)和准确性。

results = model.evaluate(test_data.batch(512), verbose=1)
print(results)
print(model.metrics_names)
for i in model.metrics_names:
  print(i)
for name, value in zip(model.metrics_names, results):
  print("%s: %.3f" % (name, value))
list_1 = [1, 2, 3, 4]
list_2 = ['a', 'b', 'c']
#序列解包操作
for x, y in zip(list_1, list_2):
    print(x, y)

效果图如下：

AI伐木累

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
基于tensorflow2.0的电影评论模型训练

电影评论模型训练（KERAS）使用影评的文本将影评分为正面影评和负面影评。这是一个二元或二元分类的例子，一个重要的和广泛适用的机器学习问题。本教程演示了使用TensorFlow Hub和Keras进行迁移学习的基本应用。我们将使用IMDB数据集，其中包含来自Internet电影数据库的50,000篇电影评论的文本。这些被分为25000个培训评论和25000个测试评论。训练和测试集是平衡的，这意味着它们包含相等数量的p导入相关的依赖import numpy as npimport tensorf
复制链接

扫一扫