1 数据集下载
THUCNews中文文本分类数据集
部分数据下载链接为https://pan.baidu.com/s/1hugrfRu 密码:qfud。完整数据下载方式为:访问 http://thuctc.thunlp.org/message, 需要提交个人信息、尊重THUNLP资源使用协议,从而获取正确下载地址。
IMDB英文情感分类数据集
下载地址为 http://59.80.44.98/ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz ,可直接通过迅雷进行下载。
2 IMDB探索模块及指标学习模块
2.1 数据说明
该数据集是通过用户的个人评论数据分析出个人对电影的喜恶(亦即消极和积极,目标是完成二元分类)。数据集共包含5万条评论,其中2.5万条是训练集数据,另外2.5万条是测试集数据。其中还有5万个未做标记的评论,可用来作无监督学习。
2.2 探索模块
数据包包含若干个文件和两个文件夹。文件夹train和test中包含neg、pos、unsup三个子文件夹,分别对应的是消极的,积极的,和未标记的数据。
3 THUCNews数据集探索
3.1 数据说明
THUCNews是根