Ⅰ. NLP数据集整理
中英文NLP数据集搜索平台,点击搜索
一、情感分析
ID | 标题 | 更新日期 | 数据集提供者 | 说明 | 关键字 | 类别 | 备注 |
---|---|---|---|---|---|---|---|
1 | weibo_senti_100k | 无 | 无 | 带情感标注新浪微博,正负向评论约各 5 万条 | 微博 | 二分类任务 | 无 |
2 | Weibo Emotion Corpus | 2016 | The Hong Kong Polytechnic University | 微博语料,标注了7类 emotions: like, disgust, happiness, sadness, anger, surprise, fear。 大小:四万多条微博 | 微博 | 多分类任务 | 论文出处 |
3 | NLPCC2013 | 2013 | CCF | 标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。大小:14 000 条微博, 45 431句子。 | 微博 | 多分类任务 | 无 |
4 | NLPCC2014 Task1 | 2014 | CCF | 标注了7 emotions: like, disgust, happiness, sadness, anger, surprise, fear。 大小:20000条微博。 | 微博 | 多分类任务 | 无 |
5 | NLPCC2014 Task2 | 2014 | CCF | 标注了正面和负面2种情感。 | 微博 | 2分类任务 | 无 |
6 | BDCI2018-汽车行业用户观点主题及情感识别 | 2018 | CCF | 汽车论坛中对汽车的评论,标注了汽车的诗歌主题:动力、价格、内饰、配置、安全性、外观、操控、油耗、空间、舒适性。每个主题标注了情感标签,情感分为3类,分别用数字0、1、-1表示中立、正向、负向。 | 汽车 | 属性情感分析、主题情感分析 | 无 |
7 | AI Challenger 细粒度用户评论情感分析 | 2018 | 美团 | 餐饮评论,6个一级属性,20个二级属性,每个属性标注正面、负面、中性、未提及。 | 美团餐饮 | 属性情感分析 | 无 |
8 | BDCI2019金融信息负面及主体判定 | 2019 | 中原银行 | 金融领域新闻,每个样本标记了实体列表以及负面实体列表。任务是判断一个样本是否是负面以及对应的负面的实体。 | 金融 | 实体情感分析 | 无 |
二、文本分类
三、文本匹配
四、文本摘要
五、机器翻译
六、NER
七、QA
八、知识图谱
九、语料库
十、阅读理解
十一、多模态
1.图片数据集
- Image Net数据集:http://www.image-net.org
2.视频数据集
- List item
Ⅱ. 其他内容
一、汉语拆字字典
二、中文数据集平台
三、中文语料小数据
-
包含了中文命名实体识别、中文关系识别、中文阅读理解等一些小量数据:传送门
-
维基百科数据集:传送门
-
NLP工具
(1)THULAC:https://github.com/thunlp/THULAC :包括中文分词、词性标注功能。
(2)HanLP:https://github.com/hankcs/HanLP
(3)哈工大:LTP https://github.com/HIT-SCIR/ltp
(4)NLPIR:https://github.com/NLPIR-team/NLPIR
(5)jieba:https://github.com/yanyiwu/cppjieba
(6)百度千言数据集:https://github.com/luge-ai/luge-ai
Ⅲ. 一些有趣的工作
一、物体检测与分割
网址:https://github.com/matterport/Mask_RCNN
二、样式迁移
网址:https://github.com/zhanghang1989/MXNet-Gluon-Style-Transfer
三、文字生成图片
网址:https://openai.com/blog/dall-e/