数据集下载探索模块:IMDB数据集(英文)和THUCNews数据集(中文)以及召回率、准确率、ROC曲线、AUC、PR曲线等基本概念的辨析
- 数据集
数据集:中、英文数据集各一份
THUCNews中文数据集:https://pan.baidu.com/s/1hugrfRu 密码:qfud
IMDB英文数据集: IMDB数据集 Sentiment Analysis
- IMDB数据集下载和探索模块及指标学习模块
- THUCNews数据集下载和探索
- 学习召回率、准确率、ROC曲线、AUC、PR曲线这些基本概念
一、IMDB数据集下载和探索模块及指标学习模块
- 下载:IMDB英文数据集: IMDB数据集 Sentiment Analysis
- 探索
import tensorflow as tf
from tensorflow import keras
import matplotlib.pyplot as plt
print(tf.__version__)
imdb = keras.datasets.imdb
(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)
print("Training entries: {}, labels: {}".format(len(train_data), len(train_labels)))
print(train_data[0])
len(train_data[0]), len(train_data[1])
word_index = imdb.get_word_index()
word_index = {
k: (v+3) for k, v in word_index.items()}
word_index["<PAD>"] = 0
word_index["<START>"] = 1
word_index["<UNK>"] =