NLP 学习 task1_2

最新推荐文章于 2021-06-01 19:47:53 发布

沐漜

最新推荐文章于 2021-06-01 19:47:53 发布

阅读量271

点赞数

分类专栏：自然语言文章标签：数据探索 NLP

本文链接：https://blog.csdn.net/zyq11223/article/details/90144955

版权

1.IMDB数据集下载和探索

下载 IMDB 数据集
TensorFlow 中包含 IMDB 数据集。我们已对该数据集进行了预处理，将影评（字词序列）转换为整数序列，其中每个整数表示字典中的一个特定字词。

以下代码会将 IMDB 数据集下载到您的计算机上（如果您已下载该数据集，则会使用缓存副本）:

imdb = keras.datasets.imdb

(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)

参数 num_words=10000 会保留训练数据中出现频次在前 10000 位的字词。为确保数据规模处于可管理的水平，罕见字词将被舍弃。

2.探索数据

我们花点时间来了解一下数据的格式。该数据集已经过预处理：每个样本都是一个整数数组，表示影评中的字词。每个标签都是整数值 0 或 1，其中 0 表示负面影评，1 表示正面影评。

print("Training entries: {}, labels: {}".format(len(train_data), len(train_labels)))

Training entries: 25000, labels: 25000

影评的长度可能会有所不同。

由于神经网络的输入必须具有相同长度，因此我们稍后需要解决此问题。

3. 将整数转换回字词

了解如何将整数转换回文本可能很有用。在以下代码中，我们将创建一个辅助函数来查询包含整数到字符串映射的字典对象：

# A dictionary mapping words to an integer index
word_index = imdb.get_word_index()

# The first indices are reserved
word_index = {k:(v+3) for k,v in word_index.items()}
word_index["<PAD>"] = 0
word_index["<START>"] = 1
word_index["<UNK>"] = 2  # unknown
word_index["<UNUSED>"] = 3

reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])

def decode_review(text):
    return ' '.join([reverse_word_index.get(i, '?') f

最低0.47元/天解锁文章

沐漜

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NLP 学习 task1_2

1.IMDB数据集下载和探索下载 IMDB 数据集TensorFlow 中包含 IMDB 数据集。我们已对该数据集进行了预处理，将影评（字词序列）转换为整数序列，其中每个整数表示字典中的一个特定字词。以下代码会将 IMDB 数据集下载到您的计算机上（如果您已下载该数据集，则会使用缓存副本）:imdb = keras.datasets.imdb(train_data, train_lab...
复制链接

扫一扫