本文代码均在jupyter Notebook上运行,已安装jieba包
结巴常用的函数
结巴常用函数 | 作用 |
---|---|
jieba.lcut(text) | 对text文件内容进行分词,返回的是分词后的词语列表 |
jieba.load_userdic(txt_file) | 为防止某些目标词汇分割,需要载入紫东义词典,告诉程序说,这几个字是一个词语,不要分割 |
jieba.lcut(text)代码实战
由于使用jupyter Notebook运行代码,部分代码直接复制可能存在不全,无法直接全部运行的问题,因此建议读者采用jupyter Notebook运行代码,如使用其他编译器,请不要忘记适当修改(例如import或者变量定义)
import jieba
text = '我来到北京清华大学'
wordlist=jieba.lcut(text) # wordlist默认是列表形式
print(wordlist)
#保留词语字长度大于1的词
# 保留词语长度大于1的词
for w in wordlist:
if len(w)>1:
print(w) # w仅是列表中的元素,因此输出的