基于N-gram的文本分类

xn12334

于 2020-08-30 19:57:51 发布

阅读量1.6k

点赞数

分类专栏：网络安全论文学习文章标签：自然语言处理

本文链接：https://blog.csdn.net/weixin_50005008/article/details/108308953

版权

网络安全论文学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

一、简介
二、N-grams和基于N-grams的相似性度量
三、使用N-gram频次统计的文本分类

一、简介

文本分类要能兼容语法，拼写，OCR输入字符错误的问题。而基于N-gram的文本分类系统能很好的处理各种各样的问题。该系统需要计算和对比N-gram频次分布文件。首先从各种类别的训练集中得到每个类别的N-gram频次分布文件c1,c2,c3,cn；其次，计算给定文本的N-grams频次分布文件t；最后，计算t到c1,c2,c3,cn的距离，取最短距离的ci类别为t的类别。
文本分类系统需要满足如下要求：

尽管文本错误，但分类必须可靠。
分类必须是有效的，因为要处理的文档数量庞大，所以尽可能少地消耗存储和处理时间。
当给定文档与任何类别不匹配时，或当它介于两个类别之间时，分类必须能够识别。

二、N-grams和基于N-grams的相似性度量

1个N-gram 就是一个长字符串中的n个字符片，通常，我们将字符串分割成一组重叠的N-grams。用"_"标记开头和结尾。因此"TEXT"分割成：

bi-grams:  _T, TE, EX, XT, T_
tri-grams: _TE, TEX, EXT, XT_, T__
quad-grams:_TEXX, TEXT, EXT_, XT__, T__

选择N-gram的原因：
由于每个字符串被分解成小的部分，所以任何存在的错误只会影响有限的n-grams。如果我们计算字符串共有的N-gram, 就得到了它们的相似性的度量,它可以抵抗各种各样的文本错误。

三、使用N-gram频次统计的文本分类

齐普夫(Zipf)定律 :在自然语言的语料库里，一个单词出现的频率与它在频率表里的排名成反比。
在这里插入图片描述
横坐标为单词在频率表中的排名，竖坐标为单词在文本中出现的频次。频次越大，在频率表中的排名越小。

在这里插入图片描述
文本分类数据流。

计算目标文本频次文件和每一个分类频次文件的Out-of-place值，累加得到距离值。

学习论文：N-Gram-Based Text Categorization

xn12334

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
基于N-gram的文本分类

文章目录一、简介二、N-grams和基于N-grams的相似性度量三、使用N-gram频次统计的文本分类一、简介文本分类要能兼容语法，拼写，OCR输入字符错误的问题。而基于N-gram的文本分类系统能很好的处理各种各样的问题。该系统需要计算和对比N-gram频次分布文件。首先从各种类别的训练集中得到每个类别的N-gram频次分布文件c1,c2,c3,cn；其次，计算给定文本的N-grams频次分布文件t；最后，计算t到c1,c2,c3,cn的距离，取最短距离的ci类别为t的类别。文本分类系统需要满足如
复制链接

扫一扫

专栏目录