每日10行代码85:python计算企业名称中的词频

背景:因为要做一个项目,涉及到计算企业名称的相似度,以前用编辑距离算法效果不是很好,现在打算用下余弦相似度的方法,这个方法里面,需要计算词语的词频。

import jieba
import openpyxl

f= r'd:\temp\data.xlsx'
wb = openpyxl.load_workbook(f)
ws = wb.active
data = (i[0].value for i in ws['B2:B69697'])

#data= [
#'湖北晓晓工贸有限公司',
#'西安市依依扶贫开发有限公司',
#'广州市顺涛机械租赁有限公司',
#]     # 可迭代对象
word_freq ={}
for i in data:
    # 对i进行分词,得到一个集合
    seg_dict = set(jieba.cut(i))
    # 判断集合里的词是否在字典中,如果在,值=原值加1,如果不在,值等于1
    for word in seg_dict:
        if word_freq.get(word):
            word_freq[word] += 1
        else:
            word_freq[word] = 1

            
print(word_freq)

我一共收集了69696条企业名称,对每个名称用结巴分词,并计算词频,最后得到结果。
输出结果:

{ '有限公司': 57318, '发展': 855, '水电': 182, '新南': 2, '科技': 2831,  '分公司': 4186 ... '培训中心': 55}

其中“有限公司的”名称有57318个,占所有企业的82%,算是比较正常的。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值