【技术探讨】文本内容分类实现方式

最新推荐文章于 2024-05-13 08:23:36 发布

小魏的马仔

最新推荐文章于 2024-05-13 08:23:36 发布

阅读量630

点赞数 1

分类专栏：技术研究文章标签： easyDL

本文链接：https://blog.csdn.net/xuexiiphone/article/details/90765879

版权

技术研究专栏收录该内容

45 篇文章 0 订阅

订阅专栏

需求

客户有销售类项目的审核流程，希望能够统计出审核不同过类型的项目信息中，常见的原因。由于前期系统设计过程中，并未对原因进行格式化，团队分析后大概有三种思路。

增加格式化数据

增加格式化数据，是最常见的做法。在审批拒绝时，让操作人员选择一个拒绝的类型，比如地址填错，联系人电话打不通，重复项目等等，这样，即可根据拒绝类型进行数据统计

序号	拒绝类型	出现次数
1	地址填错	2
2	重复项目	3

据此，很容易的得出原因的饼图分析
在这里插入图片描述

优点：

符合项目实际，且无需要学习研究的领域
可以动态的增加拒绝类型，从而自动增加分析结果输出内容（通过字典方式实现）

缺点：

历史数据无法统计

高频词汇分析

调研后分析，目前市面上有可用的中文词汇词频分析，通过训练的方式可以得出指定词汇的出现频次，并且可以对分词结果进行多次修正（具体内容可参考jieba-pypi）

经过训练，拟定的输出结果可以是（举例说明，实际并没有采用这种做法。只是进行了可行性调研）

序号	拒绝类型	出现次数	是否所需
1	地址填错	2	是
2	重复项目	3	是
3	地址	2	不是
4	销售	3	不是
5	拒绝	3	不是

可见，输出结果里面包含了很多无用的词频统计，这些无用的词频统计，可以通过jieba提供的API进行词汇删除，或者词汇重组，但是随着数据不断增多，可能需要一直对词汇字典进行维护。

并不是说高频词汇的分析功能有问题，而是我们的应用场景并不能很好的切合这个功能。因此调研后放弃。（不过下载python之后，打算研究一下，用python做一些小工具，尝试一下效果，算是意外惊喜）

文本分类

百度AI提供了一个叫做easyDL的机器学习框架。这个框架下，可以通过提供训练文本的方式，实现文本分类。调研后基本满足需求。
实现的步骤大致如下所述：

1. 创建模型
在这里插入图片描述
2. 上传数据集

3. 用数据集训练模型

在这里插入图片描述

4. 发布模型
由于模型训练需要时长，所以我并未等到训练结束。
但是根据字面意义理解，训练成功后，应该是可以通过上传文本信息来对文本进行分类的。比如说，我们提供地址错误分类下包括的数据集（1. 地址错误 2. 项目地址描述有问题 3. 位置信息错误），那么只要符合这三种的文本信息，都会被归类到地址错误下面。