jieba分词

最新推荐文章于 2024-03-22 12:59:16 发布

西沟

最新推荐文章于 2024-03-22 12:59:16 发布

阅读量238

点赞数 1

本文链接：https://blog.csdn.net/xiaoqiang616717/article/details/106014633

版权

首先要拥有停用词表，可以在网上下载直接用，也可以自己加一些适合自己的词

import jieba
#加载停用词表
def stopwordslist():
    stopwords = [line.strip() for line in open('D://停用词表.txt',encoding='UTF-8').readlines()]
    return stopwords

# 对句子进行中文分词
def seg_depart(sentence):
#分词
    sentence_depart = jieba.cut(sentence.strip())
    # 创建一个停用词列表
    stopwords = stopwordslist()
    # 输出结果为outstr
    outstr = ''
    # 去停用词
    for word in sentence_depart:
        if word not in stopwords:
            if word != '\t':
                outstr += word
                outstr += " "
    return outstr

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

西沟

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
jieba分词

首先要拥有停用词表，可以在网上下载直接用，也可以自己加一些适合自己的词#加载停用词表def stopwordslist(): stopwords = [line.strip() for line in open('D://停用词表.txt',encoding='UTF-8').readlines()] return stopwords# 对句子进行中文分词def seg_depart(sentence):#分词 sentence_depart = jieba.cut(se
复制链接

扫一扫