Python项目之企业审批流绩效分析分析应用2

该博客文章介绍了如何在Python项目中改进企业审批流的词频统计,通过加载自定义词库和合并相似词汇来提高分析准确性。作者使用jieba库加载用户字典,并处理大小写敏感问题,同时展示了改进后的词云效果。
摘要由CSDN通过智能技术生成

在上一篇博文Python项目之企业审批流绩效分析分析应用1的源码基础上,发现统计出的词频需要做一些纠偏。

1、实际统计的时候,只按词库中的标准名词是不够说明问题,我们希望按照自定义的词组搭配进行自动切分,

jieba库支持自定义扩展词库:

jieba.load_userdict("newdit.txt")

文本格式:

派遣单 4 n
支付方式 4 n

预算编码 4 n

其中字母 表示词类型,数字表示期望统计词频

2、如:预算编码、WBS编码是同一个东西,且有些审批人可能直接写WBS,Python是大小写敏感的,所有wbs和WBS会被统计不同的词汇。所以算法中应该对这类词汇做汇总统计。同样,申请人要求回退和本人要求回退同样的理由,应该归为一类。

程序做如下调整:

#bpmRejectAnalyzeV1.py
import jieba
import jieba.posseg as pseg
from os import path
from scipy.misc import imread
from wordcloud import WordCloud
import matplotlib.pyplot as plt

def getTxt(txt):
    with open(txt,'r',encoding='utf-8')as f:
        reject_list = f.readlines()
    return reject_list

def segmentWords(txtlist):
    stop_words = set(line.strip()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值