在上一篇博文Python项目之企业审批流绩效分析分析应用1的源码基础上,发现统计出的词频需要做一些纠偏。
1、实际统计的时候,只按词库中的标准名词是不够说明问题,我们希望按照自定义的词组搭配进行自动切分,
jieba库支持自定义扩展词库:
jieba.load_userdict("newdit.txt")
文本格式:
派遣单 4 n
支付方式 4 n
预算编码 4 n
其中字母 表示词类型,数字表示期望统计词频
2、如:预算编码、WBS编码是同一个东西,且有些审批人可能直接写WBS,Python是大小写敏感的,所有wbs和WBS会被统计不同的词汇。所以算法中应该对这类词汇做汇总统计。同样,申请人要求回退和本人要求回退同样的理由,应该归为一类。
程序做如下调整:
#bpmRejectAnalyzeV1.py
import jieba
import jieba.posseg as pseg
from os import path
from scipy.misc import imread
from wordcloud import WordCloud
import matplotlib.pyplot as plt
def getTxt(txt):
with open(txt,'r',encoding='utf-8')as f:
reject_list = f.readlines()
return reject_list
def segmentWords(txtlist):
stop_words = set(line.strip()