Python--使用jieba进行分词并计算词权重

import jieba
import xlrd
import jieba.analyse

def stopwordslist(filepath):
    stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
    return stopwords

def fenci(content):
    table = content.sheets()[0]
    nrows = table.nrows#获取行数
    row1=1
    cell=""
    final = ""
    while row1<nrows:
        cell = table.cell(row1,0).value
        fenci=jieba.cut(cell)

        for seg in fenci:

            if seg not in stopwords and len(seg)>0:
                final+=seg+" "
                final+=""
        final+='\n'
        # print(row1,final)
        row1 += 1

    return final

jieba.load_userdict("C:\\Users\\Administrator\\Desktop\\userdic.txt")#导入自定义词典,自定义词典编码方式为UTF-8
stopwords=stopwordslist("C:\\Users\\Administrator\\Desktop\\stop.txt")#导入停止词典

content=xlrd.open_workbook("C:\\Users\\Administrator\\Desktop\\zhaopin_data.xlsx")#导入数据
final=fenci(content)
# print(final)

keywords = jieba.analyse.extract_tags(final,topK=200,withWeight=True,allowPOS=())
# print(keywords)
for item in keywords:
    # if item[0] in ("SQL","Python","SAS"):
        print(item[0], item[1])  # 输出关键词和相应的权重


#可根据输出的topK词语,再挑选一些加入停止词典中。
  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值