文本分类——NLV算法研究与实现

最新推荐文章于 2024-05-26 09:47:15 发布

xsdjj

最新推荐文章于 2024-05-26 09:47:15 发布

阅读量5.9k

点赞数 4

分类专栏：机器学习文本分类自然语言处理创新研究算法设计文章标签：文本分类自然语言处理机器学习研究创新算法设计

本文链接：https://blog.csdn.net/xsdjj/article/details/83824751

版权

内容提要

1 引言
2 NLV算法理论
- 2.1 训练模型
- 2.2 分类模型
3 NLV算法实现
- 3.1 算法描述
4 实验及性能评估
5 分析总结

1 引言

分类器的分类效率是衡量分类器性能的一项重要指标。为了提高分类的效率，本文将表示训练集文本的向量空间模型矩阵压缩成二维的归一化向量(Normalized Vector, NLV)，通过特征向量进行未标注文本的类别识别。NLV算法时间复杂度比较低，分类速度将得到明显提高。下面将具体描述NLV算法的理论基础及算法的实现过程。
本文通过归一化思想提出一种文本分类算法。训练过程将三维向量空间模型压缩成二维的归一化特征向量。描述了两种用来调整归一化特征向量的特征权重的归一化函数。分类过程采用未标注文本与训练生成的归一化特征向量的相似度进行类别判断。相似度可以采用向量内积或夹角进行计算

2 NLV算法理论

2.1 训练模型

经过特征选择算法选择出作为分类特征之后，就进入分类器构建的过程。分类器一般分为训练和分类两个过程。训练就是从已标注数集构建分类模型。归一化向量算法针对每一个类别，将选出来的特征重新计算特征频率(Feature Frequency，FF)，然后对所计算的类别特征向量进行归一化变换，生成用于分类或分类预测的归一化向量。
特征频率的计算类似于词频，本文区分词频与特征频率，特征频率是从已选择的特征角度考虑。文本d_i 的特征f_k 的特征频率指特征f_k 出现的次数比上文本d_i 的含有的特征总数，计算如式:

其中： N_jk 表示特征f_k 在文本d_i 中出现的次数，N_j 表示文本d_i 中出现的特征总数。类别c_i 的特征f_k 的平均特征频率如式：

其中 m 代表训练集类别c_i 的文本数量，平均词频更好的描述了一个特征f_k 的综合重要程度，并且可以比较好地中和或抵消噪声数据对分类结果的影响。
类别c_i 的归一化特征向量表示为 NLV_i = (w_i1,w_i2, …,w_in) ，w_ik 表示特征*f_k*的归一化权重。 w_ik 的计算可以有多种方式。为了使用一个归一化向量恰当地表示一个类别所有文本，本文采用平均特征频率来衡量一个特征的权重。特征权重的一般表示形式如式：

其中 Φ(x) 称为归一化函数(Normalized Function, NLF)。根据归一化思想的要求，本文提出两种方式的归一化函数，一种“方根型”归一化函数，另一种“对数型”归一化函数。
1) 方根型NLF
方根型归一化函数采用方根变换调整平均特征频率计算权重。计算如下式所示：

其中 η 为根指数，一般取自然数。将平均特征频率代入上式得归一化向量特征权重的计算形式如下式所示：

2) 对数型NLF
对数型归一化函数采用对数变换调整平均特征频率计算权重。计算如下式所示：

将平均特征频率代入上式得到归一化向量特征权重的计算形式如下式所示：

一般取自然对数就可以得到比较理想的分类效果。上式可以转化为式：

只经过计算平均特征频率所得到的权重差异比较大，低频词对分类的贡献相对较低。为了平衡特征权重，采用归一化函数缩小高频词和低频词的权重差距。本文提出的归一化方法的归一化思想主要体现在两个方面。一方面是将训练集类别空间的文本生成归一化的特征向量，相当于三维空间变换成二维。归一化的另一个方面就是归一化函数变换特征频率，缩小特征权重差距。不同 η 的方根型NLF函数 y= Φ_r(x) 的曲线如图1所示：

图 1 不同 η 的函数 y= Φ_r(x) 曲线示意图

由于特征频率满足 0≤ff_jk≤1，从图4.1可以看出，在x靠近0时 y= Φ_r(x) 增幅明显，并且随着 η 的增大， y= Φ_r(x) 的值调整不断加大，并趋向于1，但是仍然保持原有递增趋势。归一化函数目的保持相对差异并且将权重归化趋于1。这样可以保持高频词的分类能力并加强低频词的分类能力。
对数型归一化函数虽然不是严格在[0,1]区间上趋于1，但是在实际应用中的特征频率区间上能够表现出归一化特性。

2.2 分类模型

通过判断未标注文本与已经训练出来的特征归一化向量的距离或相似度来判断未标注文本的类别。NLV算法相似度(Similarity)可以采用向量的内积或两向量的夹角。设未标注文本为 d_x ， d_x 的VSM表示形式 d_x=(w_x1,w_x2,…,w_xn) 采用词频作为权重。

1) 内积(Inner Product，IP) 型相似度
未标注文本 d_x 与归一化向量 d_x=(w_x1,w_x2,…,w_xn) 的内积型相似度计算如下式所示：

将 d_x 与 NLV_i 代入上式，得到最终内积型相似度计算如下式所示：

2) 夹角(Included Angle，IA)型相似度
夹角型相似度认为两文本向量越接近，其向量夹角 θ 越小；而夹角 θ 越小， θ 的余弦值越大。向量夹角的余弦值很容易用两个向量表示出来。未标注文本 d_x=(w_x1,w_x2,…,w_xn) 与归一化向量 NLV_i = (w_i1,w_i2, …,w_in) 的夹角型相似度计算如下式所示：

将 d_x 与 NLV_i 代入上式，得到最终夹角型相似度计算如下式所示

文本 d_x 最终所属类别为与类别归一化向量相似度最大的类别标签。文本 d_x

最低0.47元/天解锁文章

xsdjj

关注

4
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
文本分类——NLV算法研究与实现

内容提要1 引言2 NLV算法理论2.1 训练模型2.2 分类模型3 NLV算法实现3.1 算法描述4 实验及性能评估4.1 实验设计4.1.1 实验环境4.1.2 数据集4.1.3 实验目标4.1.4 关于预处理4.2 实验说明4.3 实验结果4.3.1 选参前提实验4.3.2 NLV分类实验4.3.3 分类对比实验5 分析总结1 引言分类器的分类效率是衡量分类器性能的一项重要指标。为了...
复制链接

扫一扫