召回率、准确率、ROC曲线、AUC、PR曲线

本文介绍了数据集IMDB和THUCNews,并详细讲解了评估机器学习模型性能的重要指标,包括召回率、准确率、F1 Score、PR曲线和ROC曲线,以及如何在Python中使用sklearn库计算这些指标。
摘要由CSDN通过智能技术生成

 

1 数据集下载

THUCNews中文文本分类数据集

  部分数据下载链接为https://pan.baidu.com/s/1hugrfRu 密码:qfud。完整数据下载方式为:访问 http://thuctc.thunlp.org/message, 需要提交个人信息、尊重THUNLP资源使用协议,从而获取正确下载地址。

IMDB英文情感分类数据集

  下载地址为 http://59.80.44.98/ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz ,可直接通过迅雷进行下载。

2 IMDB探索模块及指标学习模块

2.1 数据说明

  该数据集是通过用户的个人评论数据分析出个人对电影的喜恶(亦即消极和积极,目标是完成二元分类)。数据集共包含5万条评论,其中2.5万条是训练集数据,另外2.5万条是测试集数据。其中还有5万个未做标记的评论,可用来作无监督学习。

2.2 探索模块

  数据包包含若干个文件和两个文件夹。文件夹train和test中包含neg、pos、unsup三个子文件夹,分别对应的是消极的,积极的,和未标记的数据。

3 THUCNews数据集探索

3.1 数据说明

  THUCNews是根

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值