汉语韵律短语切分方法初探

置顶数据堂官方账号

已于 2023-03-31 16:04:57 修改

阅读量2.3k

点赞数 1

分类专栏：数据产品文章标签：算法机器学习人工智能深度学习

于 2020-03-12 22:07:38 首次发布

本文链接：https://blog.csdn.net/weixin_44532659/article/details/104828695

版权

数据产品专栏收录该内容

114 篇文章 14 订阅

订阅专栏

韵律简介
语音合成任务流程

语音合成合成器生成语音波形，其过程如下：
①文本分析处理，即按照语义、语法等规则对文本进行分词和标注，将文本序列转换成字的音节序列。
②根据语境、韵律规则和韵律模型，为每个音节或词组调整韵律参数，将音节序列转换成音韵序列。
③运用语音合成技术，按要求合成出高质量的语音流。
韵律概念

■ 韵律是语言交际的重要元素，是一种听觉和感知相结合的概念，它能帮助听者理解说话者要表达出来的信息。

■ 自然语句中的韵律特征包括语调、节奏和重音等，人们使用它们能表达出情感和意向。

■ 现如今语音合成的自然度依旧不是那么的理想，其根本问题就是对自然语句中的韵律不能有效的模拟。
韵律层级

韵律短语切分方法

韵律短语切分任务

①语音合成系统想取得高质量的语音，就必须具备韵律标注处理的功能。

②韵律短语切分精度直接影响到语音合成的质量，该工作通常需要专业标注人员进行标注。

③随着目前语料库的加大，人工进行韵律边界的标注成本较大，而且人工标注存在一定主观性。因此如何精确自动地对韵律边界标注己经成为目前一个急需解决的问题。

韵律短语自动切分的意义
经过自动切分预处理数据，可节省人工标注时间；提高预识别的准确率和覆盖率即可提高生产效率，减少人工成本。

韵律短语切分方法综述
基于规则方法

■ 基于语法短语结构的自动语法分析器

曹建芬学者提出的基于语法信息的韵律结构预测方法的研究对汉语韵律短语的预测产生了很大的影响。

流程：
①对系统的输入文本进行分词和词性标注；
②利用第一步得到的分词信息，对输入文本进行韵律组词；
③对输入文本进行句法的切分以及标注；
④搭建韵律结构预测树；
⑤确定韵律边界的位置并计算该位置与上一个韵律边界的距离大小；
⑥输出语句的韵律结构。
基于统计方法

■ 非确定性的定量推理方法，把文本中的每一个词、短语以及切分点的出现都看作是一个随机过程。

大量的统计模型已经被应用于汉语韵律短语边界预测中，其中最常见的机器学习模型有决策树模型、转换规则学习以及隐马尔可夫模型等方法。
其基本流程：
①通过考察边界的上下文词类组合，找到确定分界点的规律。
②经过韵律短语切分标注的一批语料中统计得到相应停顿点的上下文信息。
③然后依据短语分界点统计信息在词性序列中预测短语切分点，实现韵律短语的自动切分。

基于深度神经网络方法

■ 词向量与深度神经网络相结合，使模型在输入特征和模型结构上都有效地避免了模型的局限性

在自然语言处理领域尤其是韵律层级预测方面，将词用“词向量”来表示，用深度神经网络来捕捉多层级间的信息是将深度学习算法引入韵律结构预测领域的核必技术，是现阶段业界研究的重要方向。

三种方法对比

基于BILSTM模型的切分方法

韵律短语切分实验-流程简图

韵律短语切分实验 - 标注序列 BEMS

韵律分词的第一步便是标注字，字标注是通过给少量人工标注切分好的句子中每个字打上标签，通过4标签来进行标注（single，单字成词；begin，多字词的开头；middle，三字以上词语的中间部分；end，多字词的结尾。均只取第一个字母。），这样，“为人民服务”就可以标注为“sbebe”了。4标注不是唯一的标注方式，类似地还有6标注，理论上来说，标注越多会越精细，理论上来说效果也越好，但标注太多也可能存在样本不足的问题，一般常用的就是4标注和6标注。

韵律短语切分实验-流程简图
韵律短语切分实验 - 训练网络

如下图所示，神经网络的模块A正在读取某个输入 xi，并输出一个值 hi。循环路径可以使得信息可以从当前步传递到下一步。
RNN 可以被看做是同一神经网络的多次赋值，每个神经网络模块会把消息传递给下一个。所以将这个循环展开，链式的特征揭示了 RNN 本质上是与序列和列表相关的。

韵律短语切分实验 – LSTM模型

LSTM模型 – 遗忘门

LSTM模型 – 更新门（1）
LSTM模型 – 更新门（2）
LSTM模型 – 输出门

韵律短语切分实验 - BILSTM结构

LSTM对句子进行建模还存在一个问题：无法编码从后到前的信息。

举一个例子，“这个餐厅脏得不行，没有隔壁好”，这里的“不行”是对“脏”的程度的一种修饰，通过BiLSTM可以更好的捕捉双向的语义依赖。

韵律短语切分实验 - Viterbi算法

维特比算法是一个特殊但应用最广的动态规划算法，利用动态规划，可以解决任何一个图中的最短路径问题。

通过已知的可以观察到的序列，和一些已知的状态转换之间的概率情况，通过综合状态之间的转移概率和前一个状态的情况计算出概率较大的状态转换路径，从而推断出隐含状态的序列的情况。

维特比算法的精髓就是，既然知道到第i列所有节点Xi{j=123…}的最短路径，那么到第i+1列节点的最短路径就等于到第i列j个节点的最短路径+第i列j个节点到第i+1列各个节点的距离的最小值。
2215849956.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NDUzMjY1OQ==,size_16,color_FFFFFF,t_70)
韵律短语切分实验-流程简图

韵律短语切分实验 - 自动切分后结果

实验结果及对比

采用数据堂标注部门验收通过的79703 条中文韵律已标注数据作为本次实验数据，取其中95%作为训练集，5%作为测试集，采用基于LSTM循环神经网络来训练韵律层级标注模型进行实验，结果如下表所示：
从实验结果可以看出，
■ 模型预测正确率为92.15%左右
■ 模型预测召回率为82.42%左右
■ 模型预测句对率为61%左右
■ 实验结果显示此方法对韵律短语切分效果优于基于边界点词性特征统计的韵律短语切分方法

韵律短语切分实验 - 效果反馈
由生产部门反馈结果不难发现，本次实验在一定程度上实现了韵律短语切分的目的，生产效率提高了2.5倍。后期针对处理分词中的缺陷不足可进行进一步优化。

总结与展望

总结
■ 利用深度神经网络学习词向量，将韵律词及标签向量作为输入特征，通过对模型的输入特征和模型结构进行改进，使模型有效的规避了隐马尔可夫模型、决策树模型、最大熵模型等模型的局限性，在输入特征中加入韵律词向量，对韵律短语预测精度提高起到了积极的作用。

不足
■ 短语边界标注时并未考虑语法词性成分
■ BiLSTM模型弊端

展望
■ 短语边界标注时充分考虑语法词性成分，可以借鉴语法分析器方法
■ 模型中引入Attention机制

参考文献
[1] 汉语的韵律词与韵律短语.王洪君.2003
[2] 基于深度神经网络的韵律结构预测研究.王琦.2017
[3] 提高韵律短语正确切分方法的研究.吴晓慧.2014
[4] 基于半监督学习的汉语韵律短语预测研究.苏丹.2015
[5] 基于静音时长和文本特征融合的韵律边界自动标注.傅睿博.2018