适用于特殊类型自然语言分类的自适应特征谱神经网络

本文提出了一种自适应特征谱神经网络,用于特殊类型自然语言分类,尤其是古诗文分类。该网络能自适应选择有效特征,减少运算时间,提高分类准确率至99%,并具有一定的可解释性。数据预处理采用TF-IDF和CBOW方法,通过拉普拉斯矩阵记录特征关系,构建自适应特征谱,实现了特征选择与分类的融合,提高了算法效率。
摘要由CSDN通过智能技术生成

点击上方蓝字关注我们

适用于特殊类型自然语言分类的自适应特征谱神经网络

王一峰, 孙丽茹, 崔良乐, 赵毅

哈尔滨工业大学(深圳)理学院,广东 深圳 518055

  

摘要计算机算力的提升使得深度学习算法迅速发展,然而由于古诗文特殊的语序、用词、结构、句式、文法结构、表达方式,深度学习模型需要消耗更多的算力进行特征提取等工作,因此并未在这一领域取得广泛的应用。为此,提出了一种新型的神经网络结构——自适应特征谱神经网络。该算法有效减少了运算时间,可以自适应地选择对分类最有用的特征,形成最高效的特征谱,得到的分类结果具有一定的可解释性,而且由于其运行速度快、内存占用小,因此非常适用于学习辅助软件等方面。以此算法为基础,开发了相应的个性化学习平台。该算法使古诗文分类的准确率由93.84%提升到了99%。

关键词自适应特征谱 ; 神经网络 ; 文本分类 ; 古诗词 ; 拉普拉斯矩阵

论文引用格式:

王一峰, 孙丽茹, 等.适用于特殊类型自然语言分类的自适应特征谱神经网络[J].大数据, 2020, 6(4):92-104.

WANG Y F, SUN L R, et al.Adaptive feature spectrum neural networks for special types of natural language classification[J].Big Data Research, 2020, 6(4):92-104.


1 引言

文本分类问题是自然语言处理领域一个十分常见的问题,文本分类应用非常广泛,例如舆情分析、影评分析、新闻情感分析、新闻内容分类、垃圾邮件过滤、敏感信息自动屏蔽、社交软件交流中对某句话的情感趋势分析,以及购物网站中的“好评度”评估。总而言之,语言本身是一种人类智慧的体现,而文本作为语言的载体,蕴含着大量的信息和规律,因此让计算机掌握这种规律并进行模式识别和分类是一项对算法的巨大挑战。而古诗文作为一种特殊的语言形式,其表达方式与现代语言相比更加隐晦、精练,与白话文相比分类难度更高,因此本文选择古诗文分类问题作为文本分类的切入点,以便提出更优的文本分类算法。

文本分类算法是自然语言处理中很重要的一类算法,在20世纪50年代就已经有科学家借助“专家系统”对文本进行分类,然而该方法可覆盖的范围以及分类准确率都非常有限,只能用于解决一些条件明确、描述清晰且有条理的文本分类问题。随着统计学方法的发展,特别是20世纪90年代后互联网在线文本数量的增长和机器学习学科的兴起,逐渐形成了一套解决大规模文本分类问题的经典方法,其主要流程是“人工特征工程+分类器”,即把整个文本分类问题拆分成特征工程和分类器两部分。对于不同类型的文本,特征选取方法是不同的,分类器的设计也是不同的,例如:采用Apriori算法对同时出现在语句中的特征项进行筛选,进而实现分类;基于遗传算法对诗文特征项进行选取,接着利用朴素贝叶斯模型进行分类;通过均值漂移、谱聚类、k-means等聚类算法选取特征,随后采用支持向量机、距离加权最近邻、贝叶斯模型等分类器进行分类。其中,使用聚类算法寻找特征,随后采用加权最近邻分类器的方法是目前对中国古诗文分类准确率最高的一种方法,平均准确率可以达到93.84%,其中,针对某一特定类型古诗词文本的分类准确率最高可以达到96.67%。

然而这些分类方法存在几个主要缺点。首先,现有的古诗文本分类算法的性能依赖于初始特征库的选取,以专家选取的特征库为基础进行特征聚类、文本分类的性能远好于以普通人选取的特征库为基础的性能。除此之外,找特征的过程与分类的过程往往是分离的,这会导致一些被选取的特征对分类任务作用不大,应考虑将古诗文分类的结果直接反馈到找特征的过程,进而帮助找到更好的分类特征。这些缺陷最终导致在面对不同类型的文本,尤其是面对语言委婉、内容写意、抒情的文本时,难以设计出效果良好的分类器。因此本文设计了自适应特征谱神经网络来完成文本分类任务,它可以自适应地选择对分类有效的特征,并组成“最优特征谱”。

2 数据预处理

在机器学习算法中,输入的数据通常是数值型的,因此需要将文字型文本特征转换为数值型数据特征,将输入模型的文本变成向量,从而确保模型可以进行计算和分类。

具体操作是用高频词组成特征库,再将特征库中的词用向量表示。首先,使用Sunday算法查找古诗文中出现频率较高的字词,组成“特征库”。使用Sunday算法的好处是在字符串匹配时可以大幅减少运算时间。Sunday算法查找原理如图1所示。

图1   Sunday算法查找原理

任务是判断文本串“枯藤老树昏鸦,小桥流水人家,古道西风瘦马。”中是否包含模式串“小桥流水”。从左端开始,比较模式串的第一位,如果匹配,则依次向下比较;若不匹配,则比较文本串中下一字符是否出现在模式串中(本例中“昏”并未出现在模式串“小桥流水”中),因此直接向右平移m+1个单位(m为模式串长度)。重复上述过程,若发现文本串的下一字符出现在模式串中:本例中“流”出现在“小桥流水”中,这时直接将两个“流”对齐,再逐位比较,最终发现匹配成功。

由于古诗文中单音节词占多数,且文法注重典故、骈骊对仗、音律工整,因此在内容表达上就会有一些牺牲。此外,一些在现代文中并不多见的特征词(如“金樽”“涧户”“左迁”等)在古诗文中却并不罕见,现代文的分词方法有时很难将其准确分开,因此在借助Sunday算法进行词频统计的基础上,还需要进行一些人工的筛选,这也是本文的一项重要工作。

在得到由高频字词组成的特征库后,要进行更精细化的筛选。目标是将输入的古诗文分成4类,因此特征词的选择标准应与该特征词对4种类型古诗文本的区分表示度相关。有些字词虽然出现频率高,但对于分类而言用处不大。按照爱情、忧国忧民、山水田园、哲理诗的顺序,从4类诗中各选取一句话:“愿得一心人,白头不相离”“秦时明月汉时关,万里长征人未还”“涧户寂无人,纷纷开且落”“人生得意须尽欢,莫使金樽空对月”。若直接将文本的出现频次作为文本分类的特征输入,会发现4类诗中均出现了“人”字,而“月”字则出现了两次。“人”和“月”看起来似乎是很

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值