需求
客户有销售类项目的审核流程,希望能够统计出审核不同过类型的项目信息中,常见的原因。由于前期系统设计过程中,并未对原因进行格式化,团队分析后大概有三种思路。
增加格式化数据
增加格式化数据,是最常见的做法。在审批拒绝时,让操作人员选择一个拒绝的类型,比如地址填错,联系人电话打不通,重复项目等等,这样,即可根据拒绝类型进行数据统计
序号 | 拒绝类型 | 出现次数 |
---|---|---|
1 | 地址填错 | 2 |
2 | 重复项目 | 3 |
据此,很容易的得出原因的饼图分析
优点:
- 符合项目实际,且无需要学习研究的领域
- 可以动态的增加拒绝类型,从而自动增加分析结果输出内容(通过字典方式实现)
缺点:
- 历史数据无法统计
高频词汇分析
调研后分析,目前市面上有可用的中文词汇词频分析,通过训练的方式可以得出指定词汇的出现频次,并且可以对分词结果进行多次修正(具体内容可参考jieba-pypi)
经过训练,拟定的输出结果可以是(举例说明,实际并没有采用这种做法。只是进行了可行性调研)
序号 | 拒绝类型 | 出现次数 | 是否所需 |
---|---|---|---|
1 | 地址填错 | 2 | 是 |
2 | 重复项目 | 3 | 是 |
3 | 地址 | 2 | 不是 |
4 | 销售 | 3 | 不是 |
5 | 拒绝 | 3 | 不是 |
可见,输出结果里面包含了很多无用的词频统计,这些无用的词频统计,可以通过jieba提供的API进行词汇删除,或者词汇重组,但是随着数据不断增多,可能需要一直对词汇字典进行维护。
并不是说高频词汇的分析功能有问题,而是我们的应用场景并不能很好的切合这个功能。因此调研后放弃。(不过下载python之后,打算研究一下,用python做一些小工具,尝试一下效果,算是意外惊喜)
文本分类
百度AI提供了一个叫做easyDL的机器学习框架。这个框架下,可以通过提供训练文本的方式,实现文本分类。调研后基本满足需求。
实现的步骤大致如下所述:
1. 创建模型
2. 上传数据集
3. 用数据集训练模型
4. 发布模型
由于模型训练需要时长,所以我并未等到训练结束。
但是根据字面意义理解,训练成功后,应该是可以通过上传文本信息来对文本进行分类的。比如说,我们提供地址错误分类下包括的数据集(1. 地址错误 2. 项目地址描述有问题 3. 位置信息错误),那么只要符合这三种的文本信息,都会被归类到地址错误下面。
并且,因为是机器学习平台,我们可以不断修正机器学习的结果,通过训练的方式逐步让分类更精准。
5. 文本分类应用
后续进展,仍在实验中……
优点
智能化程度高,而且基本上不需要写太多的算法代码,只需要理解并掌握API的调用
缺点
需要提供训练数据集,数据集提供的越完善,结果越准确。由于此需求并不是一个通用的需求,所以花在整理训练集上的时间可能会超过成本预期。