基于汉字字频特征实现99.99%准确率的新闻文本分类器（二）

最新推荐文章于 2024-10-04 18:56:49 发布

zhanglei_nj

最新推荐文章于 2024-10-04 18:56:49 发布

阅读量463

点赞数

分类专栏：人工智能文章标签： libSvm 文本分类汉字字频神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhanglei_nj/article/details/51540434

版权

人工智能专栏收录该内容

5 篇文章 0 订阅

订阅专栏

基于汉字字频特征实现99.99%准确率的新闻文本分类器（一）

基于汉字字频特征实现99.99%准确率的新闻文本分类器（二）

基于汉字字频特征实现99.99%准确率的新闻文本分类器（三）

回顾

上一节中，已经下载解压了八万个文本文件在D盘的的ClassFile目录下。

本节，将提取它们的字频特征，并进行分类。我们将看到传说中的99.xx%......

源代码

点击下载生成字频特征数据文件的源代码：PreData.zip (15.57 kb)

有关此源代码的详细说明，将在后续的文章中详解。现在，先让我们抓紧看到那个传说中的99...%

首先，解压缩源代码，然后打开其中的PreData.sln项目文件

当VS加载了项目后（如果计算机是老版本的VS并且没有.Net Framework 4.5的话，点击修改为.Net Framework 4.0），保证D盘有足够的剩余空间（700M左右）点击三角形，即可编译代码，并运行汉字字频特征抽取程序。

程序将会加载D盘ClassFile目录下的文本数据，进行二次扫描。并生成特征数据。

激动人心第一次

激动人心的时刻要来临了，有了数据，就可以...

我们先用流行的libSvm工具包中的svm-train.exe工具（libsvm官网下载）进行一次训练，看看这次的特征数据能带来什么惊喜。如下图所示，输入命令 svm-train.exe -v 4 -c 1000 data.txt

参数含义：将八万条特征数据分成四份，交叉验证，惩罚系数1000。

经过漫长（在笔者的计算机上是约一个小时）的等待，我们得到了：

恩，这个结果，可是传统的词频方式的特征很难达到的。而且，是在我们对数据没有进行复杂的数据清洗的前提下，粗犷的得到的。

好吧，我承认，这个数据和99.xx%还有0.xx%的距离。那就让我们再向前迈出一小步吧。

下节预告

嗯，本节，我们生成了基于汉字字频的特征数据集，并且，我们什么都没有额外做的情况下，用SVM的训练工具，得到了一个离99%是那么近的一个模型。

下一节，我们将祭出一个五层的人工神经网络模型。他将带来....

太晚了，休息先。

基于汉字字频特征实现99.99%准确率的新闻文本分类器（三）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。