【技术探讨】文本内容分类实现方式

需求

客户有销售类项目的审核流程,希望能够统计出审核不同过类型的项目信息中,常见的原因。由于前期系统设计过程中,并未对原因进行格式化,团队分析后大概有三种思路。

增加格式化数据

增加格式化数据,是最常见的做法。在审批拒绝时,让操作人员选择一个拒绝的类型,比如地址填错,联系人电话打不通,重复项目等等,这样,即可根据拒绝类型进行数据统计

序号拒绝类型出现次数
1地址填错2
2重复项目3

据此,很容易的得出原因的饼图分析
在这里插入图片描述

优点:

  1. 符合项目实际,且无需要学习研究的领域
  2. 可以动态的增加拒绝类型,从而自动增加分析结果输出内容(通过字典方式实现)

缺点:

  1. 历史数据无法统计

高频词汇分析

调研后分析,目前市面上有可用的中文词汇词频分析,通过训练的方式可以得出指定词汇的出现频次,并且可以对分词结果进行多次修正(具体内容可参考jieba-pypi

经过训练,拟定的输出结果可以是(举例说明,实际并没有采用这种做法。只是进行了可行性调研)

序号拒绝类型出现次数是否所需
1地址填错2
2重复项目3
3地址2不是
4销售3不是
5拒绝3不是

可见,输出结果里面包含了很多无用的词频统计,这些无用的词频统计,可以通过jieba提供的API进行词汇删除,或者词汇重组,但是随着数据不断增多,可能需要一直对词汇字典进行维护。

并不是说高频词汇的分析功能有问题,而是我们的应用场景并不能很好的切合这个功能。因此调研后放弃。(不过下载python之后,打算研究一下,用python做一些小工具,尝试一下效果,算是意外惊喜)

文本分类

百度AI提供了一个叫做easyDL的机器学习框架。这个框架下,可以通过提供训练文本的方式,实现文本分类。调研后基本满足需求。
实现的步骤大致如下所述:

1. 创建模型
在这里插入图片描述
2. 上传数据集
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
3. 用数据集训练模型

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
4. 发布模型
由于模型训练需要时长,所以我并未等到训练结束。
但是根据字面意义理解,训练成功后,应该是可以通过上传文本信息来对文本进行分类的。比如说,我们提供地址错误分类下包括的数据集(1. 地址错误 2. 项目地址描述有问题 3. 位置信息错误),那么只要符合这三种的文本信息,都会被归类到地址错误下面。

并且,因为是机器学习平台,我们可以不断修正机器学习的结果,通过训练的方式逐步让分类更精准。

5. 文本分类应用
后续进展,仍在实验中……

优点

智能化程度高,而且基本上不需要写太多的算法代码,只需要理解并掌握API的调用

缺点

需要提供训练数据集,数据集提供的越完善,结果越准确。由于此需求并不是一个通用的需求,所以花在整理训练集上的时间可能会超过成本预期。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值