文本分类——NLV算法研究与实现

1 引言

  分类器的分类效率是衡量分类器性能的一项重要指标。为了提高分类的效率,本文将表示训练集文本的向量空间模型矩阵压缩成二维的归一化向量(Normalized Vector, NLV),通过特征向量进行未标注文本的类别识别。NLV算法时间复杂度比较低,分类速度将得到明显提高。下面将具体描述NLV算法的理论基础及算法的实现过程。
  本文通过归一化思想提出一种文本分类算法。训练过程将三维向量空间模型压缩成二维的归一化特征向量。描述了两种用来调整归一化特征向量的特征权重的归一化函数。分类过程采用未标注文本与训练生成的归一化特征向量的相似度进行类别判断。相似度可以采用向量内积或夹角进行计算

2 NLV算法理论

2.1 训练模型

  经过特征选择算法选择出作为分类特征之后,就进入分类器构建的过程。分类器一般分为训练和分类两个过程。训练就是从已标注数集构建分类模型。归一化向量算法针对每一个类别,将选出来的特征重新计算特征频率(Feature Frequency,FF),然后对所计算的类别特征向量进行归一化变换,生成用于分类或分类预测的归一化向量。
  特征频率的计算类似于词频,本文区分词频与特征频率,特征频率是从已选择的特征角度考虑。文本di 的特征fk 的特征频率指特征fk 出现的次数比上文本di 的含有的特征总数,计算如式:

其中: Njk 表示特征fk 在文本di 中出现的次数,Nj 表示文本di 中出现的特征总数。类别ci 的特征fk 的平均特征频率如式:

其中 m 代表训练集类别ci 的文本数量,平均词频更好的描述了一个特征fk 的综合重要程度,并且可以比较好地中和或抵消噪声数据对分类结果的影响。
  类别ci 的归一化特征向量表示为 NLVi = (wi1,wi2, …,win)wik 表示特征*fk*的归一化权重。 wik 的计算可以有多种方式。为了使用一个归一化向量恰当地表示一个类别所有文本,本文采用平均特征频率来衡量一个特征的权重。特征权重的一般表示形式如式:

其中 Φ(x) 称为归一化函数(Normalized Function, NLF)。根据归一化思想的要求,本文提出两种方式的归一化函数,一种“方根型”归一化函数,另一种“对数型”归一化函数。
  1) 方根型NLF
  方根型归一化函数采用方根变换调整平均特征频率计算权重。计算如下式所示:

其中 η 为根指数,一般取自然数。将平均特征频率代入上式得归一化向量特征权重的计算形式如下式所示:

  2) 对数型NLF
  对数型归一化函数采用对数变换调整平均特征频率计算权重。计算如下式所示:

将平均特征频率代入上式得到归一化向量特征权重的计算形式如下式所示:

一般取自然对数就可以得到比较理想的分类效果。上式可以转化为式:

  只经过计算平均特征频率所得到的权重差异比较大,低频词对分类的贡献相对较低。为了平衡特征权重,采用归一化函数缩小高频词和低频词的权重差距。本文提出的归一化方法的归一化思想主要体现在两个方面。一方面是将训练集类别空间的文本生成归一化的特征向量,相当于三维空间变换成二维。归一化的另一个方面就是归一化函数变换特征频率,缩小特征权重差距。不同 η 的方根型NLF函数 y= Φr(x) 的曲线如图1所示:

图 1 不同 η 的函数 y= Φr(x) 曲线示意图

  由于特征频率满足 0≤ffjk≤1,从图4.1可以看出,在x靠近0时 y= Φr(x) 增幅明显,并且随着 η 的增大, y= Φr(x) 的值调整不断加大,并趋向于1,但是仍然保持原有递增趋势。归一化函数目的保持相对差异并且将权重归化趋于1。这样可以保持高频词的分类能力并加强低频词的分类能力。
  对数型归一化函数虽然不是严格在[0,1]区间上趋于1,但是在实际应用中的特征频率区间上能够表现出归一化特性。

2.2 分类模型

  通过判断未标注文本与已经训练出来的特征归一化向量的距离或相似度来判断未标注文本的类别。NLV算法相似度(Similarity)可以采用向量的内积或两向量的夹角。设未标注文本为 dxdx 的VSM表示形式 dx=(wx1,wx2,…,wxn) 采用词频作为权重。

  1) 内积(Inner Product,IP) 型相似度
  未标注文本 dx 与归一化向量 dx=(wx1,wx2,…,wxn) 的内积型相似度计算如下式所示:

dxNLVi 代入上式,得到最终内积型相似度计算如下式所示:

  2) 夹角(Included Angle,IA)型相似度
  夹角型相似度认为两文本向量越接近,其向量夹角 θ 越小;而夹角 θ 越小, θ 的余弦值越大。向量夹角的余弦值很容易用两个向量表示出来。未标注文本 dx=(wx1,wx2,…,wxn) 与归一化向量 NLVi = (wi1,wi2, …,win) 的夹角型相似度计算如下式所示:

dxNLVi 代入上式,得到最终夹角型相似度计算如下式所示

  文本 dx 最终所属类别为与类别归一化向量相似度最大的类别标签。文本 dx

  • 4
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值