数据集资源整理
城市计算数据
UCI标准数据库
Google AI数据集(测试),需翻墙
Movielens数据集(电影数据库)
亚马逊的公开数据集
Yelp(美国的美食数据)
歌曲数据集
英国伦敦公开数据
加拿大开放数据
ICWSM-2009年的数据集
安然邮件数据集
纳斯达克Data Store数据存储系统
Airbnb 开放的民宿信息和住客评论数据
Amazon 食品评论数据【Kaggle数据】
预测公寓租金竞赛数据
广告点击预测竞赛数据【Kaggle竞赛】
在线广告实时竞价数据
购物车商品关联竞赛数据【Kaggle竞赛】
Netflix 推荐系统数据
MovieLens 20m 电影推荐数据集
Retailrocket 电子商务网站行为数据
1 万本畅销书的6百万读者评分数据
泰坦尼克灾难数据【Kaggle竞赛】
自然语言处理
RCV1-2 英文新闻数据
RCV1-2 是一个路透社(Ruters)英文新闻文本及对应新闻类别数据,可用以进行文本分类和其它自然语言处理(NLP)任务。
20news 新闻数据
20news是一个英文新闻数据集,包含 20个 类别共 20000篇 新闻文档,可用以进行文档分类和自然语言处理等任务。
美国假新闻数据
该数据是一个假新闻标记数据
中文经典典籍语料
中文经典典籍语料,古诗词、古代名著、小说等语料。
几个网上采集的自然语言语料
多个自然语言语料集合,包括 Yelp点评网站评价、Yahoo问答、Amazon商品评价、搜狗新闻等语料。
安然数据集
亚马逊评论
里面有3500万条来自亚马逊的评论,时间长度为18年。数据包括产品和用户信息、评级等
Google Books Ngram
来自Google书籍的词汇集合
博客语料库
从blogger.com收集的681,288篇博客文章。每个博客至少包含200个常用的英语单词
维基百科链接数据
维基百科全文。该数据集包含来自400多万篇文章,近19亿字。你可以对字、短语或段落本身的一部分进行搜索。
Gutenberg电子图书列表
Project Gutenberg的附加注释的电子书列表
加拿大议会的文本块
来自第36届加拿大议会记录的130万对文本
危险边缘
来自问答游戏节目《危险边缘》(Jeopardy) 的超过 20 万个问题的存档
英文SMS垃圾邮件收集
包含5,574条英文垃圾邮件的数据集。
Yelp评论(Yelp Reviews)
Yelp发布的一个开放数据集,包含超过500万次评论。
UCI的垃圾邮件库
一个大型垃圾邮件数据集,用于垃圾邮件过滤。
情感分析
多域情感分析数据集
IMDB
影评,也是比较有历史的二元情绪分类数据集、数据规模相对较小,里面有 25,000 条电影评论。
斯坦福情感树银行
带有情感注释的标准情绪数据集。
Sentiment140
一个流行的数据集,它使用16万条推文,并把表情等等符号剔除了。
Twitter 美国航空公司情绪数据集
自 2015 年 2 月以来美国航空公司的 Twitter 数据,分类为正面、负面和中性推文。
【参考】
知乎–各领域公开数据集下载