superb（一个语音领域的评测平台）评测任务学习笔记

本文链接：https://blog.csdn.net/weixin_45647721/article/details/129683606

本文介绍了语音识别、意图分类、语义槽填充等自然语言处理技术，以及声纹分割聚类的详细过程，包括语音检测、说话人转换检测和声纹嵌入码的训练。重点讨论了声纹分割聚类的挑战和解决策略，如使用DiarizationErrorRate作为评估指标，以及FocalLoss对抗类别不平衡问题。特征提取方面提到了MFCC等方法。

摘要由CSDN通过智能技术生成

phoneme recognition:未查到精确相关的，但感觉和语音识别类似，就是将声学特征映射到具体的因素，可以是一个分类任务。
query by example:只能查到和数据库相关的内容（https://blog.csdn.net/A1342772/article/details/104526116），可能是对数据库中的模糊搜索有用
intent classification:
1. 意图分类“intent classification”是NLP的一个重要的部分，特别对于任何的智能机器人助手平台来说。
2. 就是把用户提出的问题进行进行一个分类，比如问的是翻译相关的问题，或者是数学问题等
slot filling:（感觉这个技术很厉害）
1. 理解一段文字的一种方法是标记那些对句子有意义的单词或记号。在自然语言处理领域，这个问题被称为语义槽填充。
2. 语义槽是针对句子里面某些单词做标记
3. 槽填充是针对这个词的某些属性做标记。
4. 槽填充的作用 -> 将用户隐式的意图转化为显式的指令从而让计算机理解。（感觉这个说的很清晰）
5. 举例：“帮我订张机票，从杭州出发。”这里就应该填充了两个槽，把『机票』、『杭州』填入名为『交通工具』、『出发地』
speaker diarization:
1. Speaker Diarization，可翻译为声纹分割聚类、说话人分割聚类、说话人日志，解决的问题是“who spoke when”。给定一个包含多人交替说话的语音，声纹分割聚类需要判断每个时间点是谁在说话。声纹分割聚类问题是声纹领域中仅次于声纹识别的第二大课题，其难度远大于声纹识别。单词diarization来自diary。
2. 评估指标：Diarization Error Rate (DER)，对模型输出结果尝试各种说话人的排列，最后选效果最好的说话人分配方法计算DER
3. 整体框架：
  1. 语音检测
    1. 利用语音检测模型，将音频帧逐帧分为语音（speech，即有人说话）和非语音（non-speech，即无人说话）两个类别。非语音可能是纯静音（silence），也可能是环境噪音（ambient noise）、或者音乐（music）、音效等其他信号。
    2. 常用的语音检测框架有：
      1. VAD
      2. EOQ：end-of-query
    3. 可以把语音检测当成标准的序列标注问题求解。
  2. 语音分割/说话人转换检测
    1. 分割的目标是分割后的每段音频只有一个说话人。有两种方法可以把整段语音切分为多个小段：固定长度切分。比如每段1秒，临近段之间可以有些重叠。好处显然是简单，完全不用模型。
    2. 存在的问题：
      1. 片段太长：可能包含说话人转换点，此时给出的转换点预测结果容易出现错位；
      2. 片段太短：说话人声纹信息不足，识别准确率下降。
      3. 一般可以把每段长度设为 0.5秒 ~ 2秒之间。
  3. 训练说话人转换检测模型（Speaker Change Detection，SCD）：
    1. 以SCD预测的转换点进行切分。注：SCD只判断转换点，但并不知道转换后的说话人是哪个（说话人数量>2时）。所以SCD后还是需要聚类那个步骤。
    2. 存在的问题：SCD的准确率严重影响声纹分割聚类整个系统的效果。
    3. 图：
      1. 基于左右窗比较的方法：对比左右窗嵌入码的差异性。
      2. 基于窗分类的方法：
        当成标准的序列标注问题求解。
        转换点label为1，非转换点label为0。所以两个类别很不平衡。通常会把转换点附近 K 帧（如 K=9）的label都标为1，这样可以缓解类别不平衡问题。另一个缓解类别不平衡问题的方法是使用针对不平衡问题的loss函数，比如 Focal Loss，亲测有效，通常准确率能提升几个百分点。
  4. 声纹嵌入码：
    1. 训练数据准备
      1. 期望训练数据有以下特性：
        包含尽可能多的说话人，比如超过10万个说话人；
        训练数据与验证数据中的说话人不同；
        语音中说的话尽可能多样化；
        口音、语调、录制设备及环境尽可能多样化；
        保证数据的正确性：保证音频中确实包含来自说话人的语音，而非单纯的噪声，或者同时包含其他说话人的声音。
      2. 数据增强方法：
        模拟房间的混响（reverberation）效果，可使用 pyroomacoustics 包；
        改变音量；改变音速；改变基频；
        添加各类噪音；
        随机子序列法：在已有的训练数据中，从较长的序列中随机截取较短的序列；
        随机输入向量法：保留标签序列，但是将输入序列中的每个嵌入码，替换为从相应说话人的所有嵌入码集合中随机选取一个；
    2. 嵌入码旋转法：通过余弦相似度训练得到的声纹嵌入码都位于高维空间的单位球面上，可以通过某个旋转矩阵，将某个输入序列中的所有嵌入码映射到单位球面上的另一些点，且任何两个嵌入码在映射前与映射后其余弦相似度保持不变。
    3. 特征：MFCC等。
4. 更多模型讲解可参考：https://zhuanlan.zhihu.com/p/338656027