自然语言处理 第二期

这篇博客介绍了自然语言处理中的数据集IMDB和THUCNews,详细讲解了召回率、准确率、ROC曲线、AUC和PR曲线的基本概念,并提供了相关资源和代码链接。
摘要由CSDN通过智能技术生成

数据集下载探索模块:IMDB数据集(英文)和THUCNews数据集(中文)以及召回率、准确率、ROC曲线、AUC、PR曲线等基本概念的辨析

  1. 数据集
    数据集:中、英文数据集各一份
    THUCNews中文数据集:https://pan.baidu.com/s/1hugrfRu 密码:qfud
    IMDB英文数据集: IMDB数据集 Sentiment Analysis
  2. IMDB数据集下载和探索模块及指标学习模块
  3. THUCNews数据集下载和探索
  4. 学习召回率、准确率、ROC曲线、AUC、PR曲线这些基本概念

一、IMDB数据集下载和探索模块及指标学习模块

  1. 下载:IMDB英文数据集: IMDB数据集 Sentiment Analysis
  2. 探索
#导入模块
import tensorflow as tf
from tensorflow import keras
import matplotlib.pyplot as plt

print(tf.__version__)
#下载IMDB数据集
imdb = keras.datasets.imdb
(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)

#探索数据
print("Training entries: {}, labels: {}".format(len(train_data), len(train_labels)))

#第一条影评
print(train_data[0])

#第一条和第二条影评中的字词数
len(train_data[0]), len(train_data[1])

#将整数转换为字词
word_index = imdb.get_word_index()

word_index = {
   k: (v+3) for k, v in word_index.items()}
word_index["<PAD>"] = 0
word_index["<START>"] = 1
word_index["<UNK>"] = 
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值