AG及新闻主题分类数据集

最新推荐文章于 2024-07-28 10:00:00 发布

zdcs

最新推荐文章于 2024-07-28 10:00:00 发布

阅读量8.8k

点赞数 4

分类专栏：深度学习机器学习自然语言处理一般技巧和资源介绍

本文链接：https://blog.csdn.net/zdcs/article/details/79384493

版权

一般技巧和资源介绍同时被 3 个专栏收录

23 篇文章 0 订阅

订阅专栏

自然语言处理

20 篇文章 1 订阅

订阅专栏

深度学习

19 篇文章 1 订阅

订阅专栏

AG是由ComeToMyHead超过一年的努力，从2000多不同的新闻来源搜集的超过1百万的新闻文章
ComeToMyHead是一个学术新闻搜索引擎，开始于2004年7月
 http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html
该数据集由学术社区提供，用于研究分类，聚类，信息获取(rank，搜索)...等非商业活动

两个格式版本: db 和 xml

DB Table

+-------------+--------------+------+-----+-------------------+-------+
| Field       | Type         | Null | Key | Default           | Extra |
+-------------+--------------+------+-----+-------------------+-------+
| source      | varchar(32)  |      | PRI |                   |       |
| url         | varchar(255) |      | PRI |                   |       |
| title       | text         | YES  | MUL | NULL              |       |
| image       | varchar(255) | YES  |     | NULL              |       |
| category    | varchar(32)  |      | PRI |                   |       |
| description | text         | YES  |     | NULL              |       |
| rank        | int(11)      | YES  |     | NULL              |       |
| pubdate     | timestamp    | YES  |     | CURRENT_TIMESTAMP |       |
| video       | varchar(255) | YES  |     | NULL              |       |
+-------------+--------------+------+-----+-------------------+-------+

其中的主题分类数据集由 Xiang Zhang (xiang.zhang@nyu.edu) 从以上数据集中构建
https://github.com/mhjabreel/CharCNN/tree/master/data/ag_news_csv
它来自于原始语料库中4个最大的类
每个类包含30，000训练样本和1900测试样本，因此总的训练样本是12，000，总的测试样本是7600

文件classes.txt包含包含类名称,即：
World
Sports
Business
Sci/Tec

文件train.csv 和 test.csv 包含了逗号分隔的3栏，分别是 类索引(1-4),标题和描述
标题和描述都有双引号""包含，其中的内部引号由双重引号标出，
新行由\n分隔