语种识别(Spoken Language Identification,LID)

一、语种识别综述
(一)概述
语种识别(Spoken Language Identification,LID)是指通过分析处理语音片段来判别该语音所属语种的技术。与说话人识别类似,语种识别也分为语种辨别和语种确认两种任务。在辨别任务中,给定一段语音,系统要从若干可能语言中选择一种作为该段语音所属的语言;在确认任务中,给定一段语音,系统需要确定该段语音是否属于某种语言。
(二)应用
语种识别可以应用在客服中心系统中,让机器能够自动判断客户所用的语言以便接通懂这门语言的人工客服,或者调用相关的语音识别引擎进行处理。在语音翻译系统中,语种识别可以辅助选择合适的语音识别引擎和机器翻译引擎,避免人工选择的麻烦。另外,语种识别在虚拟会议、音频资料检索、智能对话系统也有所应用。
(三)评价指标
语种识别常用的评测指标包括:
1.等错误率(Equal Error Rate,EER)
与其他分类任务类似,语种识别通过虚警概率和漏警概率来衡量系统的好坏:
在这里插入图片描述

其中nNon是非目标语种的语音段个数,ntgt是目标语种的语音段个数,nFA是将非目标语种判做目标语种的个数,nMiss是将目标语种判做非目标语种的个数。当 PFA=PMiss时,取得等错误率EER。
2.平均代价Cavg
NIST LRE 2007提出的一项新的评测指标,其计算方式如下:
在这里插入图片描述

3.准确率(Accuracy)
(四)数据集
在这里插入图片描述

                           表1 语种识别相关数据集 

(五)竞赛和探讨会
1.东方语种识别挑战赛(Oriental Language Recognition(OLR) Challenge)
OLR挑战赛旨在提高多语种场景下语种识别系统和语音识别识别系统的性能。该竞赛2016年起,连续举办了OLR Challenge 2016、OLR Challenge 2017、OLR Challenge 2018、OLR Challenge 2019、OLR Challenge 2020、OLR Challenge 2021。OLR Challenge 2021中语种识别共有两个赛道,分别是constrained LID和unconstrained LID。constrained LID指每个语音所属的语言都是已知的13种目标语言之一,但是语音是在不同环境下录制的。constrained LID赛道要求只能使用发布的数据来构建LID系统。Unconstrained LID的测试数据来源于现实生活环境.Unconstrained LID赛道可以使用任何数据进行LID系统构建。

2.NIST Language Recognition evaluation(LRE)
Language Recognition evaluation开始1996年,最近的一次是2022年。LRE22的任务是给定一段语音和一种目标语言来确定在测试音频片段中是否使用了目标语言。

3.说话人和语种识别研讨会(Odyssey)
Odyssey(说话人和语言识别研讨会)是由ISCA(International Speech Communication Association,国际语音通信协会)的SpLC-SIG(Speaker and Language Characterization Special Interest Group,说话人和语言表征特别兴趣组)发起举办的、专注于说话人和语言识别的辅导与研究研讨会,其目的是促进说话人识别和语言识别方面研发人员之间的互动交流。该研讨会于1994年举办了第一届,自2004年起每两年举办一次,来自世界各地的研发人员聚集在一起,介绍他们的最新发现和见解,包括说话人和语言表征、建模、评估和应用。最近的一次是Odyssey 2022,在中国举办,由清华大学、厦门大学、昆山杜克大学、新疆大学四高校承办,由得意音通、天聪智能、希尔贝壳、小米提供资金支持。Odyssey 2022接收语种识别、验证和确认相关方向的论文,论文收录在ICSA中。

二、语种识别发展过程
(一)基于统计模型的语种识别方法
基于统计模型方法的语种识别包括特征提取和统计建模两个步骤。特征提取的目的是取得对语言有区分能力的特征向量,而统计建模的目的是对特征向量的分布特征进行建模。统计模型方法通常包括基于声学特征的识别方法、基于发音单元的语种识别方法。
在这里插入图片描述

                  图1 基于统计模型的语种识别方法框架图

1.基于声学特征的语种识别方法
基于声学特征的语种识别使用线性预测系数(LPC)、MEL倒谱系数(MFCC)、感知线性预测系数(PLP)等。由于发音具有动态性,对这些特征的的动态变化进行建模也会提高系统性能,比如提取基础特征的一阶差分或二阶差分。
(1)高斯混合模型
早期的语种识别任务中[4],会使用高斯混合模型,该模型假设每一种语言的声学特征由一个GMM生成,给定一段待识别语音,只要找到输出这段语音概率最大的GMM就能得到识别结果。
(2)i-vector模型
GMM模型每种语言的GMM参数包括各个高斯成分的均值、方差和权重,为了保证模型具有足够的表征性,需要讲高斯成分的数量设置得足够大,这一高位模型需要大量的训练数据,因此,研究者提出了i-vector模型。该模型使用一个线性高斯混合模型将不定长的语音特征向量序列归纳为一个低维连续向量,该向量包含该段语音的各种长时特征。成为嵌入向量。在声纹识别中,基于i-vector向量,使用余弦相似度或者后端模型(PLDA)就能识别说话人确认和鉴别。在语种识别中,只需要将后端模型的训练准则调整为区分语言而不是区分说话人,常用的区分性模型包括逻辑回归(Logistic Refression)和支持向量机(SVM)。
2.基于声学特征的语种识别方法
基于声学特征的统计建模方法有两个缺点:(1)声学特征过于原始,语音的相关信息不足。(2)是对语言中的时序信息建模能力不强。基于此,研究者提出了基于发音单元的识别方法[5][6],该方法将语音信号解码成发音单元的序列,并对这些序列进行时序建模,从而提高对语言信息的提取能力和建模能力。该方法主要包含两个步骤:发音单元提取和时序建模。该方法首先利用一种或多种语言的声学特征训练一个GMM模型,并将该模型中的每个高斯成分视为一个发音单元。基于该GMM模型对所有训练语音进行帧级别解码,得到每段语音的发音单元序列。基于单元化后的语音数据,即可为每种语言训练一个以高斯成分标号为词典的N-gram语言模型。在识别是,对识别语音信号同样做Tokenization处理,并将得到的发音单元序列输入值每个语言对应的N-gram模型进行打分,得分最高的的模型对应的语言即为识别结果。可以将所有语言对应的分数作为向量输入一个后端分类器来提高识别性能。
在这里插入图片描述

                        图2 基于发音单元的语种识别方法

(二)基于深度学习的识别方法
作为一种区分性建模方法,DNN可以直接对输入语音特征进行语种分类。最简单的方法是对语音进行帧级别的分类,分类目标包括所有可能的语言选项。Lopez-Moreno等人 [7]率先验证了这一帧级别语种识别的可行性,输入为39维的PLP特征,输出为所有候选语言加上一个集外(Out-of-Set)语言。训练完成后对一个语音片段的每一帧做前向计算,并对softmax之前的输出在所有帧上做平均,再经过softmax即可得到句子级的后验概率。
在这里插入图片描述

                       图3 基于DNN的帧级别语种分类

Lozanodiez等人[8]提出了一种基于CNN的端到端语种识别系统,在该系统中,输入维一整段语音,经过卷积和池化最后通过softmax得到语种识别结果。
在这里插入图片描述

                      图4 基于CNN的端到端语种识别

Tang[9]等人提出了一种音素时序神经模型(Phonetic Temporal Neural Net,PTN),使用语音识别中的音素区分网络生成音素的后验概率,在对这一后验概率进行RNN建模。PTN可以将语音片段转换为音素后验概率的向量序列,不仅时序解析度更高,且包含的音素信息更加丰富。另一方面,PTN中的语言模型是连续序列上的神经语言模型,可以实现更复杂的时序建模。
在这里插入图片描述

                        图5 基于PTN的语种识别

三、语种识别技术方案
(一)现有方法
1.PHO-LID: A Unified Model Incorporating Acoustic-Phonetic and Phonotactic Information for Language Identification[10]
来源:Interspeech2022,南洋理工大学
code:https://github.com/Lhx94As/PHO-LID 16 stars
论文背景:早期关于语种识别(Spoken Language Identification,LID)研究表明声学特征和音位特征是最有效的语言线索,传统基于声学特征的LID模型通常包括语言编码器和分类器。使用基于音素特征的LID模型也取得了很好的性能。同时使用声学特征和音位特征的模型通常在LID任务和音素相关任务下进行联合优化。一个音位由多个音素组成,由于模型跨语言下的音素是一致的,但音位是不同的。因此音位特征对LID任务更加有效,但基于音位特征的LID系统在训练时需要语音音素的注释,这个过程时间复杂度很高。
论文创新点:基于声学特征和音位特征对LID的有效性,本论文在未使用音素注释的条件下,融合了声学特征和音位信息,从语音信号中提取的声学特征被送入到一个共享的CNN模块,该模块同时针对LID任务和音素分割任务进行优化。LID分支执行音位建模并在段级别聚合特征。

在这里插入图片描述

                         图6  PHO-LID模型

论文实验结果:在AP17-OLR和NIST LRE2017数据集上进行了训练和测试。评测指标为ACC、EER和Cavg。基线系统使用了x-vector、i-vector、PTN-LID和XSA-LID等。PHO-LID在实验时对于计算音素分割分支的noise-contrastive estimation (NCE) loss使用了3组和10组的负样本设置。
在这里插入图片描述

                         表2 实验结果1

在这里插入图片描述

                         表3 实验结果2

2.BERT-LID: Leveraging BERT to Improve Spoken Language Identification[11]
来源:International Symposium on Chinese Spoken Language Processing(ISCSLP),北京信息科学与技术国家研究中心、清华大学
code:https://github.com/thusatlab/bert-lid 9 stars
论文背景:现有语种识别技术在中长语音(大于3s)上性能良好,但是当语音长度小于1s时性能下降明显。
论文创新点:本文提出了基于BERT的语种识别模型BERT-LID,通过将前端音素识别器获得的音素后验图作为输入,扩展了原始的BERT模型。BERT-LID模型由音素识别器、BERT模块和深度分类器组成。音素识别器将输入Fbank特征转换为音素识别结果。使用音素后验概率图来表示每个音素或者类似音素单元的后验概率。BERT模块的输入做了自适应修改,将token(word/subword)从token-level变成frame level,将输入的position embedding从token-level 变成frame level。最后通过深度分类器识别语种。
在这里插入图片描述

                     图7  BERT-LID模型

论文实验结果:在实验时使用了OLR20数据集、T&T数据集和TAL_ASR数据集。OLR20数据集包含6种语言,语音平均长度为5.45s。T&T数据混合了THCHS-30(chinese)和TIMIT(english)。TAl_ASR数据集存在中英文之间的Code-Switching。评测指标为EER,accuracy和F1 score。基线模型为基于音位信息的模型n-gram-SVM和基于声学特征的模型X-vector。
在这里插入图片描述

                     表4 实验结果1

在这里插入图片描述

                     表5 实验结果2

3.Map-Mix: Improving Spoken Language Identification with Map-Mix[12]
来源:ICASSP2023,南洋理工大学
code:https://github.com/skit-ai/Map-Mix 14stars
论文背景:预训练的多语种模型XLSR在经过微调之后面对unseen语音的语种识别性能良好,但是当语言区分度不大的时候(如方言场景)性能下降明显。低资源的方言分类目前仍是一个难点。
论文创新点:本文提出了一种新的数据增强策略Map-Mix,利用单个数据点的模型训练动态的改进潜在混淆的采样。Map-Mix结合了datamaps和latent mixup,通过对XLSR模型进行微调生成datamaps将书记点分类为易学习、难学习和模糊三个区域。从datamaps中的特定区域采样数据点,混合易学习和模糊区域的数据点,并从训练中删除难学习样本。使用基于语种类别中方言相对分布的置信度标签来替代one-hot编码标签。datamaps使用模型训练动态地将数据集分成三个区域:易学、难学和模糊。从datamap的不同区域混合的数据点能提高低资源场景下LID的性能。Map-Mix基于Mixup,Mixup是一种数据增强策略,通过从训练数据集随机插值两个数据点来新建一个新的数据点。
在这里插入图片描述

                      图8  Map MIX的实现流程

论文实验结果:在实验时使用了LRE 2017数据集,该数据集包含来自5种语言的14种方言。每种方言限制为5小时。基线模型包括预训练模型Wav2vec2、Hubert和XLSR。选择XLSR模型作为map-mix实验的backbone。评测指标为Accuracy、WF1-score、Language cluster accuracy(C.Acc)和Expected calibration error(ECE)。
在这里插入图片描述

                      表6 实验结果1

在这里插入图片描述

                      表7 实验结果2

4.3D-Speaker Spoken Language Identification recipes
3D-speaker是阿里巴巴通义语音团队开源的包含声学、语义、视觉的多模态任务项目。传统的语种识别算法与说话人识别框架相似,通过CAM++, ERes2Net或ECAPA-TDNN提取具有语种信息的矢量,通过训练收敛的分类器来直接输出当前语种信息。鉴于传统语种识别算法无法准确识别背景噪声大,远场数据,短时数据以及非同源数据等情况。基于此,3D-speaker结合语音识别中提取的音素信息来进一步提升特征鲁棒性。当前训练脚本使用开源数据集3D-Speaker中各方言数据,包含普通话,粤语以及各地官话等,也可自行构造训练集识别其他语种。
表9 3D-Speaker Spoken Language Identification recipes
在这里插入图片描述
在这里插入图片描述

                     图9  结合音素信息的语种识别框图
  • 13
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值