http://www.cnblogs.com/xyz2abc/p/3265512.html
适合的分词程序 要求 词库可扩展 支持 中、英、数字、符号 最好有词性标注
R 有 Rwordseg 这个包,python有jieba。java 用 Ansj
搜狗的预料库:
http://url.cn/Qrpu0D
官方地址:
http://www.sogou.com/labs/dl/t.html
SogouT-v2012 网页语料采用7z格式压缩为288个8G的文件(pages.001.7z ~ pages.288.7z)
由于微云上传文件大小限制为4G,故将每个8G文件切分为2个小于4G的文件(pages.xxx.7z_a, pages.xxx.7z_b),使用前应先合并,
合并命令是:cat pages.001.7z_a pages.001.7z_b > pages.001.7z
合并后可以用7z工具解压,如./p7zip_9.20.1/bin/7z e -o/data3/SogouT pages.001.7z
解压后就是二进制文件,按<doc></doc>标签切分后,可以得到的字节数据(byte[]),再按各个网页的字符集(例如:Content-Type:charset=gbk)解码,就能得到各网页的html了