【无标题】

爱格白

已于 2023-04-24 21:41:40 修改

阅读量236

点赞数 1

分类专栏：学习笔记文章标签：语音识别

于 2023-03-23 00:08:40 首次发布

本文链接：https://blog.csdn.net/zj71hmvx/article/details/129696061

版权

学习笔记专栏收录该内容

40 篇文章 1 订阅

订阅专栏

本文详细探讨了语音识别技术，包括声学模型如隐马尔可夫模型(HMM)和统计语音识别，以及语言模型如N-gram。还涉及了噪声处理、声学建模中的向量量化、说话人适应和语言模型自适应等关键概念。此外，讨论了动态贝叶斯网络、最小方差无失真响应波束形成器（WPE）等去混响方法，以及语音合成技术如拼接合成和统计合成。

摘要由CSDN通过智能技术生成

语音识别 speech recognition

语音信号的韵律信息Prosody information：
音高pitch
• 感知量 • 与基频F0密切相关 • F0的频率范围为成年男性50-200Hz，女性150-350Hz，儿童200-500Hz
信息的能量：一帧里样本的平方和
语音信号级别：

Low - no phonetic content无语音内容
Signal to noise ratio estimation, pronunciation quality measurement, pitch extraction, noise suppression
Medium - no semantic content无语义内容
Phone recognition, pronunciation training, keyword spotting, “Who spoke when”, emotion detection, speaker identification, language identification
High - no discourse or pragmatic content无话语或语用内容
Speech recognition
Natural language processing
Summarisation, dialogue systems

语音信号可以以不同的复杂程度建模。这些表示对内容以及说话者特定信息进行编码。而文本是一种用于对语音信号进行编码的简单且低比特率的形式。
语音是来自不同层次（话语、语义、句法、语音、语音、声学）的信息的复杂组合，用于传达信息，同时信号包含很多可变性（重要差异或噪声？）
• 频谱可变性Spectral variability 由所有可变性源引起的线性或非线性效应
• 时间可变性Timing variability 大多数非线性效应，语音可以以非线性方式被拉伸。说话者独立和连续语音的更多变化

自动语音识别ASR

一个好的ASR应该具备低错误率和高用户满意度，
语音 recogniser的性能可以通过将输出字符串与手动转录版本（参考转录本）进行比较来衡量。
recogniser构成更大系统的一部分（例如文本输入系统或查询系统）。更主要的是用户对整体系统性能（例如交易时间）而不是原始错误率感兴趣。

Recognition:基于模式匹配技术。语法/语义是从统计中学习的。从大量数据中学到的隐性知识。随机系统使用强大的算法自动优化给定任务的形式数学模型
Understanding:1970 年代的风格理解系统基于提取感知特征和使用语言规则。Much use was made of explicitly coded syntax, semantics and pragmatics. Deterministic and rule-based. Many, interacting and adhoc rules.
光谱可变性Spectral variability 由于所有可变性来源而产生的线性或非线性效应
时序可变性Timing variability 主要是非线性效应，语音可以以非线性方式被拉伸。说话者独立和连续语音的更多变化

一个好的ASR系统应该具备：
低错误率：语音识别器的性能可以通过将输出字符串与手动转录的版本（参考转录本）进行比较来衡量
客户满意度：识别器构成更大系统的一部分（例如文本输入系统或查询系统）。用户对整体系统性能（例如交易时间）而不是原始错误率感兴趣
有必要将 recogniser（及其缺点）集成到系统设计中，以便系统能够处理识别错误，例如通过使用确认策略或用户界面的设计来允许纠正（即 recogniser 必须能够提供替代识别假设字符串、置信度分数、添加新词/短语……）
ASR 系统有一份历史记录去报告真实用户在现场的性能比在实验室中更差（不同的噪声条件、不同的用户行为等）。因此，为系统开发/测试收集真实的数据库是非常重要的。

声音信号分类

• 需要收集example
• 可以将任何未知声音与参考声音进行比较
第一个语音识别系统在这个简单的框架上工作。获得了很多单词的第一份录音，连同所讲内容的书面形式。这些构成了训练集。识别过程包括将新的音频文件与示例集中的所有其他音频文件进行比较。

模式分类Pattern classification

模式分类是模式处理中最重要的任务之一。任务是识别输入数据中的模式，以便可以将数据分配给有限数量的类 Ci 中的一个。
所有模式处理技术都使用基本模式分类范式pattern classification paradigm。第一步特征提取，第二步分类。将单个示例 x 呈现给系统，提取向量 y 形式的基本信息，然后将其分类为 C 类。

统计语音识别Statistical speech recognition

在 ASR 中，任务是找到最可能用于生成话语 A 的词序列W。
在这里插入图片描述
the acoustic model P (A|W) 声学模型
the language model P (W) 语言模型
为声学模型和语言模型寻找合适的表示，寻找最有可能的单词序列 ^W

声学模型最常见的形式是隐马尔可夫模型 (HMM)。语言模型最常见的形式是 N-gram
在这里插入图片描述

在给定声学和语言模型（识别、解码）的情况下，搜索最有可能的单词或句子。在 ASR 系统的词汇表中定义了一组有限的词。
front-end 将音频流转换为特征（观察）向量流。
the acoustic model 负责匹配声学和词汇表中定义的单个词。
the language model 表示句法、语义、语篇约束。在某些情况下，空语言模型也是合适的
不在词汇表中的词（Out-Of-Vocabulary）可能会导致error
孤立词识别 Isolated word recognition 通过语音数据的预分割简化了系统。但这在低噪声音频环境中不容易做到。

向量之间的距离

马氏距离Mahalanobis distance
在这里插入图片描述
Σ is the covariance matrix of the data 协方差矩阵
均值μ mean
协方差Σ covariance
向量概率密度 o probability density of vector
当 Σ 是单位矩阵时，马氏距离等于欧几里德距离的平方。
对于倒谱表示，上述任何距离度量都是合适的（因为它们的分布接近高斯分布）。然而，对于 LPC 预测系数，欧氏距离并不合适，通常使用 Itakura 距离
Itakura 距离

线性预测器的MSE为，窗口长度 N，预测器阶数 p，在这里插入图片描述，使用自相关方法，扩展LP系数向量和自相关矩阵，具有自相关矩阵 R 的某些信号上的 LP 滤波器的均方误差可以计算为。给定两个具有扩展 LP 系数向量 ̃a 和 ̃b 的不同 LP 滤波器，而不是使用欧几里得距离，可以比较某些数据上的 MSE。如果 MSE 的差异很小，则认为过滤器“接近”，从而itakura距离为在这里插入图片描述

在许多情况下，需要用离散符号表示连续值的多维语音向量。这个过程称为矢量量化 Vector Quantisation
语音向量 o 映射到标量k
codebook C 由一组 K 个质心向量（codewords）组成
C = {v1, v2, . . . , vK }
将观察向量映射到码本符号在这里插入图片描述

神经网络

高斯混合模型

高斯混合模型和语音分类

典中典之贝叶斯

在这里插入图片描述
P(A|B) (conditional) probability that event A occurs given that event B happened
P(B|A) (conditional) probability that event B occurs given that event A happened
P(A) (marginal,prior) probability that event A occurs
P(B) (marginal,prior) probability that event B occurs
公式里A是text B是音频
P (B) 先验概率
P (A) 特征的边际概率密度函数
P (B|A) 给定特征类的后验概率
在这里插入图片描述
判别分类器：1.最大熵模型（多项逻辑回归）2.条件增强模型 3.神经网络

Hybrid Approach 混合：使用判别分类器产生概率密度函数
▶ 概率密度函数建模的间接方式 ▶ 扩大机器学习方法的使用范围

典中典之前馈神经网络

linear
sigmoid
Relu
Parallel Neurons 并行神经元：多个神经元可以转换多维数据，如MFCC

参数估计

MSE和CE
在这里插入图片描述

Sequences序列

序列是对象的枚举集合，其中允许重复且顺序很重要。
“集合”的大小不固定 ▶ 必须能够处理可变长度
“对象”的性质很重要 ▶ 离散和连续变量、序列、树、图

预测序列下一个词：

language modelling 语言建模：x1:k−1 是前一个词，xk 是下一个词
概率公式
预测其他序列：

speech recognition 语音识别：x1:K 是音频样本，y1:L 是单词
speech synthesis 语音合成：x1:K 是单词，y1:L 是音频样本
机器翻译：x1:K 是源语言单词，y1:L 是目标语言单词
概率公式
噪音消除：

speech enhancement 语音增强：x1:K 是嘈杂的音频样本，x′ 1:K 是干净的音频样本
概率公式
推断潜在变量

将语音系数（例如 MFCC）分配给马尔可夫链状态
概率公式

在这里插入图片描述

链式法则和马可夫假设

能够计算序列概率（联合概率）
P(A, B) = P(A|B)P(B)
序列模型HMM

动态贝叶斯网络 Dynamic Bayesian Network

在这里插入图片描述

在这里插入图片描述
DBN 可以扩展到复杂的模型，例如神经网络
DBN 的变量分为离散和连续，也可以分为观测和隐藏：
离散：状态、类别、单词和任何其他可数事件
连续的：强度、功率、音量、MFCC 和任何其他不可数的事件
别人的博文
图片中白色是隐藏层，灰色是观测层
方形是离散的数据，圆形是连续的数据
箭头代表概率：变量之间的依赖性本质上是概率性的
直线代表general：变量之间的依赖是一般的

联合分布会描述所有变量之间的依赖关系
▶ 复杂性取决于建模的依赖关系
▶ DBN 明确指定所有建模的依赖关系
DBN的联合分布在这里插入图片描述
带了观测连续数据的DBN的联合分布

DBN类型

在这里插入图片描述

——————————————————————————————————————————————

HMM

在这里插入图片描述
states q1:K ：hidden discrete
observations x1:K /X1:K ：discrete/continuous
概率依赖
观测变量和隐藏变量的联合概率分布：

p(xk |qk ) 是状态发射密度state emission density
P(qk |qk−1) 是转移概率transition probability
给定过去的states，states是独立的
给定当前的states，observations是独立的。
——————————————————————————————————————————————

Auto-Regressive HMM

在这里插入图片描述
states q1:K ：hidden discrete
observations x1:K /X1:K ：discrete/continuous
概率依赖
观测变量和隐藏变量的联合概率分布：

条件独立假设放宽了observations但对states不起作用
——————————————————————————————————————————————

Maximum Entropy Markov Model

在这里插入图片描述
states q1:K ：observed discrete
observations x1:K /X1:K ：discrete/continuous
概率依赖
给定观测变量的潜在变量的条件概率分布：
给定过去的states 和observations 的观察，states 是独立的
使用最大熵模型来产生下一个state 的分布
在这里插入图片描述
——————————————————————————————————————————————

(Linear Chain) Conditional Random Fields 条件随机场

在这里插入图片描述
states q1:K ：observed discrete
observations x1:K /X1:K ：discrete/continuous
general 依赖
条件概率的替代形式：

采用与 MEMM 相同的假设，但不需要局部归一化

——————————————————————————————————————————————

MFCC

噪音

Additive noise

离散时域：
y[k] = x[k] + n[k]
功率谱：
S Y (ω) = S X (ω) + S N (ω)
实际上，信号是加窗的，窗口 p，长度 L：
S Y (pL, ω) = S X (pL, ω) + S N (pL,ω)
无需恢复初始相位的加窗：
在这里插入图片描述

Convolutional noise

h[k]为线性时不变滤波器
y[k] = x[k] * n[k]
加窗的帧：
在这里插入图片描述

噪音类型，信噪比，混响

• 白噪声
随机过程；i.i.d 分布；以高斯分布为特征；无相位信息 - 功率谱
• 有色噪声
谱形噪声
• 脉冲噪声
例如持续时间短的开/关脉冲
• 真实世界噪声
音乐、语音
• 传输通道失真
电话线；麦克风、放大器

对噪音进行基础卷积处理：
窗口帧：y[k] = w(pL- k)(x[k] * h[k])
信噪比：
所需信号的能量（功率）与观测信号中的噪声能量（功率）之比
通常以对数域 (dB) 衡量，正值表示信号更大
在这里插入图片描述
混响Reverberation

是计算延迟和过滤信号的总和

声波在封闭空间中从墙壁反射，不同的路径产生一系列的回声
脉冲响应与频率有关，更高频率下的更大吸收意味着更快的衰减
房间越大意味着衰减缓慢
混响时间 = 声音衰减 60 dB 所需的时间
在这里插入图片描述
体积 V，表面积 S，反射系数α

假设噪声和语音是不相关的。X 可以通过减去噪声功率谱的估计得到：在这里插入图片描述
S N (ω) 是假定为平稳的噪声功率谱

维纳滤波 Wiener filtering

加性噪声的维纳滤波：
计算滤波器在这里插入图片描述

最小化误差在这里插入图片描述

假设前一帧的维纳滤波器 p 1 是已知的，迭代更新
在这里插入图片描述

beam forming

beam forming 波束成形是通讯领域的知识，大概是利用信号处理技术结合天线产生一个具有指向性的波束，并将波束集中在希望传播的方向，从而提升该方向信号的能量并减少其他方向的干扰。
每个传感器接收到信号的时间延迟和失真公式：
yi [k] = hi [k] ⇤ x[k - Ti ] + ni [k]（假定仅延迟存在）
自相关峰允许找到延迟噪声，同时信号被假定为不相关，这个公式变化成：在这里插入图片描述同时因为：
最后变成：

（数学的东西果然还是很抽象哇）
然后提到了：MVDR beamforming（Minimum Variance Distortionless Response Beamformer 最小方差无失真响应波束形成器
他是一种方法，而不是算法
他的核心思想是如果没有噪声，则波束形成后的信号输出应该没有失真

现代去混响的方式WPE

WPE缩写Weighted prediction error
混响意味着相同信号的加权和
通过原始信号的逆滤波去混响（最大似然）

对输入信号先进行功率谱密度估计，再预测滤波器估计，反向过滤后再进行预测。

在这里插入图片描述
这方面论文挺多的，有机会拜读一些

语音合成

拼接语音合成 Concatenative Speech Synthesis

通过将真实的语音示例连接在一起来合成语音，但需要确保自然过渡、一致的韵律
在这里插入图片描述
单元存储Unit store ▶ 丰富的片段存储库
单元选择Unit selection ▶ 选择片段的方法
单元连接Unit concatenation ▶ 后处理方法
音素/字素是语音识别中的建模单元Unit，
由上下文相关单元处理的协同发音效果，但是需要从数据中推断出表达特征。
增加建模单元的特异性，但是需要在each phone 后处理串联问题.
通过转向音节、变形、单词、短语来增加建模单元的长度syllables, morphs, words, phrases，可以减少连接点的数量但这样不会把他们变简单
引入串联友好单元，例如双音素 diphones，在中点连接比在开始/结束点连接更不具有挑战性

将文字记录与音频对齐：将音频高度准确地分割成语音和非语音单元
可以考虑手动或自动对齐
手动对齐：专家语音学家可以提供高质量的专业对齐
自动对齐：语音识别器可以实现大量的一致对齐

unit store：
语音段存储库 ▶ 分割数据库 ▶ 支持元数据
语音表示 ▶ 波形 ▶ 紧凑的频谱表示
要求 ▶ 紧凑但全面 ▶ 需要快速检索

离散元素分为：
潜在/隐藏/未知片段 sl（单元存储）
观察到的词法描述符变量 ql（单元存储）

计算选择成本和连接音频片段，目标成本 π(ql , sl ),联结成本 π(sl−1, sl )
在这里插入图片描述
使用动态规划来推断最佳片段序列

统计语音合成

给定单词序列的观察序列的概率密度函数
在这里插入图片描述
如果状态输出分布是高斯分布，条件密度的简单形式

引入动态特征以放宽条件独立假设，下面公式可以被视为捕获时间依赖性的“衍生”特征，可以合并高阶“导数”（所有非 NN HMM 使用）

底层语音参数化的产量线性变换（例如 MFCC
在 O 1:T 而不是 O(s) 1:T 上定义的任何统计模型都是不一致的（包括 HMM）
在这里插入图片描述

轨迹 HMM

给定状态序列的静态特征分布是高斯分布的
在这里插入图片描述
复杂的均值和协方差结构打破了条件独立假设
训练时最大化静态特征的概率分布，但由于对整个序列的依赖，训练和推理会很贵

混合密度网络Mixture Density Networks

在这里插入图片描述
预测给定当前 (DNN) 或所有过去 (RNN) 状态的高斯参数

语言模型

离散词汇的概率分布熵

离散词汇的概率分布熵是，信息的关键度量是bit 在这里插入图片描述

一般这里的P不是真实的，真实的P值很少能知道，所以真实分布 Q 和估计分布 P 之间的交叉熵是下面公式，信息的关键度量需要给定 Q 描述 P ：
在这里插入图片描述

H2( P) 的最小值：
最小值为零，当 P 是确定性时出现（delta 函数：一个值为 1，所有其他值为 0）
H2( P) 的最大值：
当 P 呈均匀分布时，最大值出现。最大值取决于事件的数量。
两个事件均匀分布的熵 H2( 1/2 , 1/2 )：
是1，
两个事件非均匀分布的熵 H2( 3/4 , 1/4 )：

所以在离散序列上概率分布的熵和交叉熵（和文本处理一样）

声学建模的HMM

联合发音意味着与特定音素相关的实际声音取决于相邻的声音（在单词或句子上下文中），比如句子：We were away with William in Sea World，w 的每个频谱图都不太相同。为了处理这个问题，必须使用上下文相关的phone models音素模型。
将音素邻居考虑在内的模型称为上下文相关模型。与一个特定音素相关的各种模型称为 allophones 变位音素。存在几种具有不同上下文深度的模型
在这里插入图片描述
最常用的模型是三音素，还可以拓展到五音素模型（±2）
但是三音素模型会有一点问题：
第一点，在训练数据中观察到用于训练单个三音素模型的数据不足。
第二点，训练和测试词典的速度通常较慢。有些用于识别的三音素会不存在于训练数据中。
单词内部的三音素使用低阶模型，因此具有更少的不同上下文的优势。例如，在阅读语音语料库 WSJ 的情况下，训练数据中不同纵横字词三音素的数量为 54400，而对于单词内部三音素，它仅为 14300。然而，这会导致非常短的单词建模不佳，这些单词通常是高频词汇。此外，在连续语音中通常没有停顿，因此会出现跨词边界的联合发音，同时搜索的附加成本很低。
处理问题三音素不存在在训练集的最简单策略是返回到在训练数据中观察到的模型，从而可以对其进行训练。这个方法叫backoff。

在模型集中搜索三音素X-Y+Z。
如果不可用，搜索 Y+Z 或 X-Y。
如果两者都不可用，请使用 Y 型单声道

三音素模型的数据不足问题，只能通过定义有足够数据可用的单元来控制。这可以通过将几个三音素组合在一起形成集群来完成。有两种方式：

按规则聚类Clustering by rule：三音素组是根据手动生成的规则形成的。
数据驱动的聚类Data driven clustering：通过优化一些距离标准自动形成聚类

数据驱动的聚类是迄今为止更好的选择，因为它允许根据训练数据的属性自动调整模型集大小（少量聚类用于少量数据，大量聚类用于大量数据）。集群不必具有相同的大小，分为自下而上和自上而下的两种聚类

凝聚聚类 Agglomerative Clustering

Agglomerative Clustering是自下而上的聚类方式，要求首先以标准方式训练所有三音素模型

计算所有三音素之间的距离。
合并最近的两个三音素。
重复该过程直到距离超过一定阈值

合并两个模型会产生另一个模型，该模型现在代表两个上下文。模型的聚类不一定限于完整的三音素 HMM（广义三音素）。如果在状态级别执行聚类，则聚类会产生更好的结果。这意味着只有输出概率分布 (GMM) 才能被聚类。

聚类需要定义距离度量，即衡量一对三音素模型到底有多不同。这种距离度量的定义是很困难的。通常使用基于可能性的距离度量，例如：
在这里插入图片描述
其中 M1,2 表示模型，O1 是由模型 M1 生成的 T 1 向量序列。对于两个单一高斯模型的简化情况，这就变成了 Kullback-Leibler 距离，公式：
对称的公式

语音决策树Phonetic decision trees

语音决策树是Top-Down方法，基于关于相邻音素的语音问题的二元决策树可用于自上而下的聚类。与凝聚聚类相比，这不仅可以解决数据不足的问题，还可以解决三音素模型的数据不足问题，也不需要backoff，可用于 HMM 和单个状态。
标准用法是：在状态级使用语音决策树并结合基于训练数据制定的可能性标准。
在自上而下的聚类过程的每个阶段，都会测试预定义（手动生成）集中的每个问题（每个问题可以将一组三音素分成两部分）。如果通过拆分获得足够的可能性增益，则将问题添加到树中并重复该过程

声学模型

Whole-word models 全词模型：每个词都被替换为适合每个词的从左到右的模型。所有模型都串联在一起。
Monophone models 单音素模型：每个单词首先被音素串替换，然后被每个音素的模型替换
State-clustered triphone models 状态聚类三音素模型：每个单词首先被一串音素替换，然后音素被转换成三音素。最后，对于每个三音素状态，通过使用语音决策树找到适当的输出分布

语音识别

所以在语音识别中：
聚类三音素是声学模型的标准
N-gram 是语言模型的标准
语音识别需要用以上搜索给定观察到的信号的最佳单词序列

最佳解码器The optimal decoder

搜索算法的实现也称为解码器（将信号解码为文本）。例如经典深度优先与广度优先算法。
判断语音解码器的分类标准：
高效性：给定任务，解码器所需的计算资源必须是合理的。通常需要比实时更快的性能
准确性：解码器应该总是在给定知识源的情况下找到单词序列。这与获得正确的单词序列不同。所有偏差都是搜索错误
延展性：解码器应该有能力处理任意词汇。
Versatile：理想情况下，解码器应该能够处理各种各样的知识源
灵活的输出：解码器不仅应该能够产生最佳单词序列，还应该能够包含替代结果。

不同的声学模型需要不同的搜索算法，这依赖于先前的观察

Local dependency 基于邻近观察的决策
Sequence dependency 决策基于当前观察之前的所有观察
双向依赖Bi-directional dependency 决策是基于未来的顺序（a-causal）

比如基于 HMM 的模型和相关模型具有非常局部的依赖性，有利于高效解码。RNN搜索复杂度高，中间搜索假设不具有可比性。

Token Passing Algorithm

声学建模会影响识别网络的构建，从而影响搜索空间。单音素是一种简单的声学模型，允许从音素模型构建单词模型。
在这里插入图片描述

这种并行结构不是最理想的。例如，许多单词以音素 b 开头，可以在开头使用相同的模型合并并行分支
在这里插入图片描述
单音素模型的性能通常不如三音素模型。在单词内部三音素的情况下，非树结构的网络的扩展是微不足道的，对搜索成本的影响几乎没有，但是存在间接影响，因为三音素不太可能共享相同的输出分布，因此必须计算更多的输出概率。

二元网络

与三音素模型的使用类似，语言模型将上下文信息添加到网络中，从而增加了搜索空间。下图显示了对网络进行二元识别。出于简化词模型的原因，插图中没有使用词间静音模型 inter-word silence（出现了！新模型）。同样的，这个模型也是会复制词尾。语言模型概率同时也是搜索网络的一部分，它们可以被解释为一个巨大的复合模型中的转移概率。类似的结构在理论上可用于三元组模型。然而在实践中，网络变会变得庞大可能有数百千兆字节。
在这里插入图片描述

Beam search

因为直接用viterbi建模是有点困难的事，因此Beam search来了，它是一种标准技术，可以在保持合理性能的同时限制计算成本。基本思想是只计算那些接近（可能）最佳路径的单词序列的可能性，剪枝其他路径。但是由于次优决策，不可避免地会引入搜索错误。
要用beam search，必须在搜索算法中添加两个步骤:
最高似然：必须确定每个时间实例 t 中完整网络中所有token qt 的最高似然 Lmax(t)
剪枝：所有可能性低于 Lmax(t) − Lthresh 的标记都从网络中删除（即状态被标记为不活动）。如果完整模型没有任何活动状态，它们将被标记为非活动状态。合理选择阈值 L 以产生所需的速度/性能关系

Speaker Adaptation

有一种技术会针对不同说话者的语音信号的可变性。这类自适应技术通常称为说话人自适应。说话人自适应的目的是通过在识别过程中使用说话人特定信息来提高说话人无关（speaker independent SI）语音识别输出的质量。使用说话人特定的适应数据，语音识别器的组件被更改以产生较低的错误率。该系统称为扬声器自适应（speaker adaptive SA）
一个好的自适应应该是：

在足够的数据下可以实现近说话者相关 (speaker dependent SD) 性能。
对少量数据有效

说话人聚类
说话人识别问题简单来说就是生成大量模型集，每个模型集对应不同的说话人。适配过程就是决定当前说话人属于哪个模型集。但是实际上，不可能为单个说话人生成模型集，因为训练数据限制。因此，说话者被聚类到相似的说话者组中，并为这些说话者组训练模型集。在适配期间选择最合适的扬声器组。说话人适应问题被分成聚类任务和分类任务。

模型的自适应方法

基于模型的自适应方法的目标是改变参数，例如，独立于说话人的模型集，以及更有代表性的特定说话人。
MAP Maximum A-Posteriori
最大后验概率 (MAP) 方法已广泛用于说话人自适应（也用于平滑）
线性回归 Linear Regression
线性变换应用于高斯均值参数

模型自适应方法出现的问题是未观察到的高斯分布，没有对应于模型特定部分的自适应数据帧。是一种普遍问题。在处理少量自适应数据时，很少会在自适应数据中观察到高斯分布。

MAP 最大后验概率

在最大似然训练中，模型参数集 M 是通过最大化训练数据 O 的似然 p(O|M) 来找到的。MAP 估计试图通过优化来找到模型参数
在这里插入图片描述
当使用非信息先验时，MAP 估计变为 ML 估计。 MAP 估计技术已用于调整连续密度HMM（ CDHMM ）系统的均值、方差和混合权重。给定足够的自适应数据，MAP 估计将产生与说话者相关系统一样的性能。状态 j 均值的 MAP 估计由下式：在这里插入图片描述

其中 σ j 的平方是假定的已知方差，μ pj 和 σ pj 平方是先验均值和均值的方差，L i (t) = P (q(t) = i|O) 是状态水平后验概率

用于平滑和适应的MAP
在这里插入图片描述

在这里插入图片描述
c k 是分配给第 k 个集群状态的“权重”。

Least Squares Linear Regression 最小线性二乘回归

第二类模型自适应是基于模型参数的线性变换，因此在这里插入图片描述，这里A是 n × n 矩阵，b是 n × 1 向量。同样存在未观察到的高斯分布问题以及每次转换的训练数据有限的问题。因此，有必要将变换绑定到一组高斯分布上。最初考虑对所有高斯分布进行单一变换，一种简单的对W的估计方案是最小二乘法在这里插入图片描述

Maximum Likelihood Linear Regression 最大似然线性回归 MLLR

也可以估计变换矩阵W(s)，使得适应数据的可能性最大化（因此最大似然线性回归）。当所有状态的 Σ j = I 时，LSLR 和 MLLR 相同，MLLR表现优于LSLR，优在可以使用多个变换而不是使用单个变换（使用所谓的回归类树）

对于神经网络

上面的是用于HMM
对于神经网络类似的原则适用：
• 归一化：
使用与 HMM / GMM 相同的技术进行输入归一化
• 模型适应：
给模型的输入可用于适应。
• 自适应训练：
根据说话者改变模型的各个部分。

如果说话者已知，可以用one-hot编码；如果说话者未知，可以用向量表示说话者的身份（具有接近声学特性的说话者应该在向量空间中接近。）
在这里插入图片描述

其他方法

语言模型自适应
由于相当大的数据稀疏效应，语言模型的适配更加困难。例如，在适应数据中只会观察到几个三元组。因此，对具有数百万个参数的模型的影响可能很小。一种特别简单的适配方案是使用一元缓存。
使用最近识别的单词的固定大小窗口来获得单词 unigram 分布。然后将其与标准（可能是三元组）语言模型结合起来。尽管可以观察到困惑度显着降低 (10-20%)，但对 WER 的影响通常仍然很低。
词库自适应
由于数据稀疏效应，很少使用词典自适应方案。理论上，可以修改字典以允许说话者特定的口音。由于在实践中声学模型和字典都对此类信息进行编码，因此使用标准声学模型自适应（例如 MLLR）通常更有效