基于N-gram的文本分类

一、简介

文本分类要能兼容语法,拼写,OCR输入字符错误的问题。而基于N-gram的文本分类系统能很好的处理各种各样的问题。该系统需要计算和对比N-gram频次分布文件。首先从各种类别的训练集中得到每个类别的N-gram频次分布文件c1,c2,c3,cn;其次,计算给定文本的N-grams频次分布文件t;最后,计算t到c1,c2,c3,cn的距离,取最短距离的ci类别为t的类别。
文本分类系统需要满足如下要求:

  • 尽管文本错误,但分类必须可靠。
  • 分类必须是有效的,因为要处理的文档数量庞大,所以尽可能少地消耗存储和处理时间。
  • 当给定文档与任何类别不匹配时,或当它介于两个类别之间时,分类必须能够识别。

二、N-grams和基于N-grams的相似性度量

1个N-gram 就是一个长字符串中的n个字符片,通常,我们将字符串分割成一组重叠的N-grams。用"_"标记开头和结尾。因此"TEXT"分割成:

bi-grams:  _T, TE, EX, XT, T_
tri-grams: _TE, TEX, EXT, XT_, T__
quad-grams:_TEXX, TEXT, EXT_, XT__, T__

选择N-gram的原因
由于每个字符串被分解成小的部分,所以任何存在的错误只会影响有限的n-grams。如果我们计算字符串共有的N-gram, 就得到了它们的相似性的度量,它可以抵抗各种各样的文本错误。

三、使用N-gram频次统计的文本分类

齐普夫(Zipf)定律 :在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。
在这里插入图片描述
横坐标为单词在频率表中的排名,竖坐标为单词在文本中出现的频次。频次越大,在频率表中的排名越小。

在这里插入图片描述
文本分类数据流。
在这里插入图片描述
计算目标文本频次文件和每一个分类频次文件的Out-of-place值,累加得到距离值。

学习论文:N-Gram-Based Text Categorization

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值