1、http://blog.csdn.net/Scythe666/article/details/51872882 [数据集]新浪微博数据集MicroblogPCU
2、NLPIR微博内容语料库-23万条
1.NLPIR微博内容语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台(
www.nlpir.org
)予以公开共享其中的23万条数据(目前已有数据接近1000万,已经剔除了大量的冗余数据)。
2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士
kevinzhang@bit.edu.cn
予以删除,对给您造成的困扰表示抱歉,并希望谅解;
3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台(
http://www.nlpir.org/
)。
4.字段说明:
id 文章编号
article 正文
discuss 评论数目
insertTime 正文插入时间
origin 来源
person_id 所属人物的id
time 正文发布时间
transmit 转发
下载地址:http://www.nlpir.org/download/weibo_content_corpus.rar