目录
1绪论
1.1“智慧政务”文本挖掘的意义
1.2“智慧政务”文本挖掘的目标
1.3语言智能的里程碑技术:BERT 深度语言模型介绍
1.4本文的总体框架
1.5本文主要的创新之处
2基于 BERT 模型的留言自动分类
2.1任务介绍与实验数据集
2.2实验流程
2.3BERT 分类效果及其与其他模型的对比分析
3基于语义相似度与 BERT 命名实体识别的热点问题挖掘
3.1任务介绍与实验数据集
3.2无须预设聚类数目的 AP 聚类算法介绍
3.3热点问题总体挖掘流程
3.4热度评价指标 L 设计
3.5实验结果分析
4多特征融合的答复意见质量评价
4.1任务介绍与实验数据集
4.2答复意见的质量评价指标
4.3实验结果分析
5 结语
参考文献
1.绪论
1.1“智慧政务”文本挖掘的意义
近年来,随着“互联网+政务”服务的推进,市长信箱、民意留言板、阳光热线等网络问政平台逐步成为政府已经成为政府了解民情、听取民声、体察民意、汇聚民智的一个重要桥梁。同时,随着大数据、云计算、人工智能特别是语言智能等技术的不断突破,建立起基于自然语言处理(Natural Language Processing, NLP) 技术的智慧政务系统,已成为社会治理创新发展的迫切需求与新趋势。如何运用NLP 技术,批量、智能、高效地处理海量的政务文本,进而建立智能化的电子政务系统,是服务型政府建设中的一个重要子课题。这对于提升政府的施政效率与治理水平,增强人民群众的幸福感,促进社会和谐,都具有重大的积极意义。
1.2“智慧政务”文本挖掘的目标
“智慧政务”文本挖掘的目标主要包含 3 部分,分别是(1)群众留言的自动分类;(2)群众留言的热点话题发现;(3)留言答复意见的质量评价。
(1)群众留言的自动分类
许多网络问政平台,每天都会接收大量的群众留言。平台的工作人员首先按照预先设置的分类体系,对留言进行归类。这便于将数目浩繁的留言分派至相应的职能部门处理,对症下药。目前,大部分政务系统的群众留言,还依赖于人工凭直觉分类。不仅工作量大、效率低,而且差错率高。因此,利用自然语言处理中的文本分类(Text classification)技术实现留言自动分类,能极大地减轻政务工作人员的负担。
(2)群众留言的热点话题发现
在海量的群众留言中,存在着许多反映共同问题、表达共同诉求的留言。对它们进行针对性地处理,有利于分清民情诉求的轻重缓急,提升政府服务的质量与效率。这属于 NLP 中的话题检测与跟踪(Topic Detection and Tracking, TDT)的课题范畴。因此,我们需要探索如何从大量留言中,自动发现某一时段内群众集中反映的热点问题。
(3)留言答复意见的质量评价
对于每一条群众留言,政府工作人员会对其答复,回应问题的处理情况,告知相关政策规定,或提供建议意见等。自动地评价答复意见的质量,有助于将群众的诉求落到实处,改善政府的办事水平。因此,在论文的第四章,我们将融合 9 项指标,从相关性、完整性、可解释性、条理性等角度,自动地综合评价答复意见的质量。
1.3语言智能的里程碑技术:BERT 深度语言模型介绍
基于神经网络架构的深度学习算法由于其能自动提取数据特征,以及其强大的拟合泛化能力,已经在计算机视觉(CV)、自然语言处理(NLP)、机器人(robotics)、推荐系统(recommendation system)等多个人工智能领域取得了重大突破。自从 2013 年谷歌的Mikolov 团队提出词汇语义表示模型 word2vec[1]后, 海量文本中的每一个词都被表示为一个稠密、低维的实值向量,自然语言处理领域也进入了深度学习时代。
近年来,NLP 界以ELMo[2]、BERT[3]代表的预训练深度语言模型(Pre-trained Language Model)在以往神经网络模型的基础上,进一步改善了文本语义表示的效果,并在文本分类、命名实体识别、信息抽取、人机对话、机器翻译、阅读理解等 NLP 各项下游任务中取得了重大突破,频繁且大幅度刷新了之前地最好结果。例如 2018 年 Google 团队发布的 BERT 模型,在 11 项不同的 NLP 测试中, 均表现出最佳效果,将通用语言理解评估(GLUE)基准提升至 80.4%,超出以往最佳模型 7.6%[4]。以 BERT 为代表的深度语言模型已经成为 NLP 里程碑式的技术。
预训练深度模型应用于下游任务,主要分为两种策略:
一是基于特征的(feature based)策略,即固定的语言特征向量从模型中提取出来服务于后续任务,以ELMo 模型为代表。
二是微调(Fine-tuning)策略,即在模型顶部添加着眼于具体任务的分类层, 并且模型所有的参数也随着下游任务的训练适度优化。微调策略实质上是一种迁移学习(Transfer Learning),可以充分利用已训练的深度模型,迁移到新的任务上。与从零开始训练模型相比,微调不仅节省了大量的计算开销,也显著提高了模型的精度。而BERT 模型就是采用微调策略的预训练模型的代表[3]。
BERT (Bidirectional Encoder Representations from Transformers)是一种基于Transformer 架构的预训练深度学习语言模型,其结构主要如图 1 所示:
图 1 BERT 模型基本架构
以中文的 BERT 预训练模型为例,图 1 的 E1,E2,…EN 表示在首尾分别添加[CLS]和[SEP]标记的中文字符。它们依次经过 12 或 24 层双向的Transformer(Trm)编码器,就可以得到文本字符语境化的向量表示( Contextual Embedding)。 Transformer 是一个基于自注意力(self-attention)机制的编码-解码器[5]。最底层的 Transformer 编码器的输入为字符向量、字符位置向量与句子片段向量之和。模型内每一层均由多头自注意力(Multi-head Self-attention) 和前馈神经网络
(Feed-forward Neural Networks)两部分构成,前者使编码器在给每个字符编码时,能关注到周围其他字符的信息;后者用于增强模型的拟合能力。模型的每一层经过一个相加与归一化(add & norm)操作后,生成新的字符向量,作为下一层编码器的输入。顶层编码器输出的[CLS]标记的向量 T1,可以视为整个句子的语义表征;而顶层编码器输出的向量T2,T3……则分别是字符 E2,E3 语境化的向量表示。它们为文本分类、命名实体识别等后续任务提供了重要支撑。
另外,为增强语义表示的能力,BERT 提出了两个预训练的目标任务:遮罩语言模型(Masked LM, MLM)和下句预测(Next Sentence Prediction, NSP)。MLM实质是一个完型填空任务,中文语料中 15%的字会被选中,其中的 80%被替换为[MASK],10%被随机替换为另一个字,剩下的 10%保持原字。模型需要根据句中的其他字,生成被选中字位置的向量,经由一个线性分类器,预测被选中的字。被选中的 15%的字之所以没有全部替换为[MASK],是因为该遮罩标记在实际下游任务的语料中并不存在。出于与后面任务保持一致的考虑,BERT 需按一定的比例在预测的字的位置放置原字或者某个随机字,使得模型更偏向于利用上下文信息预测被选中字。在下句预测任务中,模型选择若干句子对,其中有 50%的概率两句相邻,50%的概率两句不相邻。模型通过上述两个目标任务,能够较好地学习到文本中字词和句间的语义信息。
考虑到 BERT 模型在语言智能领域的显著优势,本文拟将该模型运用到“智慧政务”文本挖掘之中。采取微调(Fine-tuning)的迁移学习策略,在文本分类、文本聚类、命名实体识别(Named Entity Recognition, NER)等具体任务上,充分发挥BERT 中文模型1的功效。
1.4本文的总体框架
本文的总体组织框架如下:
第1章 绪论
介绍“智慧政务”文本挖掘的意义和总体目标;介绍本文主要采用的深度语言模型 BERT 的原理;介绍本文的总体框架与主要创新点。
第2章 基于 BERT 模型的留言自动分类
首先,介绍该任务的目标与实验数据集;第二,设计基于 BERT 模型的留言自动分类算法;最后,对比分析 BERT 模型、LSTM 模型、FastText 模型在文本分类上的效果(各类的F1 值与整体的 F-score)。
第3章 基于语义相似度与 BERT 命名实体识别的留言热点问题挖掘
首先,介绍该任务的目标与实验数据集;第二,基于 BERT 模型,将每条留言的语义向量与命名实体2(Named Entity)作为特征表示;第三,利用基于图的 Affinity Propagation(AP)聚类算法,实现留言的无监督自动聚类;
最后,对于每个聚类后的话题(问题),综合考虑(1)话题时长、(2)话题包含的留言数量;(3)每条留言的点赞数与反对数 3 项指标,设计话题热度评价体系并予以实现。
第4章 多特征融合的答复意见质量评价
首先,介绍该任务的目标与实验数据集;第二,根据答复意见的长度、答复的及时性、关键词覆盖率、答复与留言的相关性、答复的专业性等 9 项特征指标,综合评价答复意见的质量。最后,在程序上实现质量评价系统, 并进行效果分析。
第5章 结语
总结本文的工作,展望今后的改进方向。
1.5本文主要的创新之处
(1)将语言智能领域最新的 BERT 深度模型应用于政务文本挖掘。基于BERT的留言分类模型明显优于前人的LSTM 模型与 Fasttext 模型。
(2)针对以往热点话题聚类模型健壮性(Robustness)差、效果不佳的问题, 提出了利用命名实体识别(NER)任务增强留言区分度的策略,进而显著改善了留言无监督聚类的效果。
(3)针对以往无监督聚类任务不知如何预设聚类数量的问题,采用了基于距离的 Affinity Propagation(AP,亲和力传播)的聚类算法。使得自动确定聚类数量成为可能,节省了大量的试错成本。
(4)从内容丰富度、答复相关度、答复专业性、答复时效性等角度,提出了“9 项合一”答复意见质量的评测方法。更加全面地反映了政府工作人员反馈群众留言的水平。
2.基于 BERT 模型的留言自动分类
2.1任务介绍与实验数据集
该任务属于自然语言处理中的文本分类任务。附件 2 包含了 9210 条群众在网络平台上发布的留言,分为城乡建设、环境保护、交通运输、教育文体、劳动和社会保障、商贸旅游、卫生计生共 7 类。每条留言均包含留言主题、留言详情的
字段。我们将数据集打乱顺序后,按照 8:1:1 的比例,分别划分训练集、验证集和测试集。包括 BERT 在内的所有模型,均在相同的训练集、验证集上进行训练、调整超参数,并在相同的测试集上进行测试。
2.2实验流程
在输入的文本方面,考虑到 BERT 模型允许单一文本的最长长度为 512 个字符,加之有 Sun(2019)[6]等人的相关实验表明,长文本截取前 512 个字符,已能在BERT 模型中取得理想的分类效果,我们拼接了每一条留言的主题文本与详情文本,截取前 512 个字符作为模型的输入。
在超参数设置方面,我们参考 Sun(2019)[6]等人在 BERT 上的文本分类经验,如下设置超参数:学习率 lr=2e-5,衰变因子 ξ=0.95。此外,训练遵循早停(early stopping)原则,当模型的损失在验证集上不再下降,就视为模型在验证集上已经收敛,可以停止训练。这能够有效地避免过拟合(Overfitting)问题,保证模型的泛化能力以及在测试集上的表现。
如 1.3 节所述,对于文本分类任务,BERT 模型提取顶层的符号[CLS]的特征向量 v(768 维),作为整个文本的特征表示,再后接一个 768*n 的全连接层(Fully- connected layer)W(n 为文本类别数),最后通过 softmax 函数归一化,输出一个文本分别属于各个类别c 的概率:
P ( c ∣ v ) = s o f t m a x ( W ⋅ v ) P(c|v) = softmax(W·v) P(c∣v)=softmax(W⋅v)
其中softmax 函数:
s o f t m a x ( X c ) = e x p ( x c ) ∑ i = 1 n e x p ( x i ) softmax(X_c) =\frac{exp(x_c)}{\sum_{i=1}^{n}exp(x_i)} softmax(Xc)=∑i=1nexp(xi)exp(xc