好多自然语言处理工具包不能直接处理中文,如NLTK,因此,第一步要先进行分词处理,墙裂推荐使用结巴分词。
1、安装结巴python库
pip install jieba
2、语料库,这里使用搜狗实验室的网页新闻语料迷你版
3、分词
def jieba_cut(inputFile,outputFile):
'''
将从搜狗实验室下载的语料库<content></content>内容部分进行分词
:param inputFile: 要分词的语料库
:param outputFile:
:return:
'''
fin = open(inputFile,'r')
fout = open(outputFile,'w')
for eachLine in fin:
line = eachLine.strip().decode(