句法分析

http://www.cnblogs.com/xyz2abc/p/3265512.html


适合的分词程序 要求 词库可扩展 支持 中、英、数字、符号 最好有词性标注

R 有 Rwordseg 这个包,python有jieba。java 用 Ansj 


搜狗的预料库:

http://url.cn/Qrpu0D

官方地址:

http://www.sogou.com/labs/dl/t.html

SogouT-v2012 网页语料采用7z格式压缩为288个8G的文件(pages.001.7z  ~ pages.288.7z)


由于微云上传文件大小限制为4G,故将每个8G文件切分为2个小于4G的文件(pages.xxx.7z_a, pages.xxx.7z_b),使用前应先合并,


合并命令是:cat pages.001.7z_a pages.001.7z_b > pages.001.7z


合并后可以用7z工具解压,如./p7zip_9.20.1/bin/7z e -o/data3/SogouT pages.001.7z


解压后就是二进制文件,按<doc></doc>标签切分后,可以得到的字节数据(byte[]),再按各个网页的字符集(例如:Content-Type:charset=gbk)解码,就能得到各网页的html了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值