自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

weixin_44105652的博客

Python代码中文分词

  • 博客(2)
  • 收藏
  • 关注

原创 Python借助jieba包对中文txt文档去停用词、分词

Python借助jieba包对中文txt文档去停用词、分词`import jieba # 创建停用词listdef stopwordslist(filepath): stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()] return stopwords # 对句子进行分词def seg_sentence(sentence): sentence_se

2020-08-23 20:32:11 2193 1

原创 python借助jieba包对单独test和txt文档进行中文分词

python借助jieba包对单独test和txt文档进行中文分词一.单独test分词import jiebajieba.cut("大连圣亚在大连")*#输出:<generator object Tokenizer.cut at 0x0000026D05FC2A48>*print([i for i in jieba.cut("大连圣亚在大连")])*#输出:['大连', '圣亚', '在', '大连']*jieba.lcut("大连圣亚在大连")*#输出:['大连', '圣亚',

2020-08-23 20:23:56 2953 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除