微博数据集来源

1、http://blog.csdn.net/Scythe666/article/details/51872882  [数据集]新浪微博数据集MicroblogPCU

2、NLPIR微博内容语料库-23万条 

1.NLPIR微博内容语料库由北京理工大学网络搜索挖掘与安全实验室张华平博士,通过公开采集与抽取从新浪微博、腾讯微博中获得。为了推进微博计算的研究,现通过自然语言处理与信息检索共享平台( www.nlpir.org )予以公开共享其中的23万条数据(目前已有数据接近1000万,已经剔除了大量的冗余数据)。
2.本语料库在公开过程中,已经最大限度地采用技术手段屏蔽了用户真实姓名和url,如果涉及到的用户需要全面保护个人隐私的,可以Email给张华平博士 kevinzhang@bit.edu.cn 予以删除,对给您造成的困扰表示抱歉,并希望谅解;
3.只适用于科研教学用途,不得作为商用;引用本语料库,恭请在软件或者论文等成果特定位置表明出处为:NLPIR微博语料库,出处为自然语言处理与信息检索共享平台( http://www.nlpir.org/ )。
4.字段说明:
id  文章编号
article  正文
discuss  评论数目
insertTime 正文插入时间
origin  来源
person_id 所属人物的id
time  正文发布时间
transmit 转发

下载地址:http://www.nlpir.org/download/weibo_content_corpus.rar


  • 0
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值