语种识别(Spoken Language Identification,LID)

一、语种识别综述
(一)概述
语种识别(Spoken Language Identification,LID)是指通过分析处理语音片段来判别该语音所属语种的技术。与说话人识别类似,语种识别也分为语种辨别和语种确认两种任务。在辨别任务中,给定一段语音,系统要从若干可能语言中选择一种作为该段语音所属的语言;在确认任务中,给定一段语音,系统需要确定该段语音是否属于某种语言。
(二)应用
语种识别可以应用在客服中心系统中,让机器能够自动判断客户所用的语言以便接通懂这门语言的人工客服,或者调用相关的语音识别引擎进行处理。在语音翻译系统中,语种识别可以辅助选择合适的语音识别引擎和机器翻译引擎,避免人工选择的麻烦。另外,语种识别在虚拟会议、音频资料检索、智能对话系统也有所应用。
(三)评价指标
语种识别常用的评测指标包括:
1.等错误率(Equal Error Rate,EER)
与其他分类任务类似,语种识别通过虚警概率和漏警概率来衡量系统的好坏:
在这里插入图片描述

其中nNon是非目标语种的语音段个数,ntgt是目标语种的语音段个数,nFA是将非目标语种判做目标语种的个数,nMiss是将目标语种判做非目标语种的个数。当 PFA=PMiss时,取得等错误率EER。
2.平均代价Cavg
NIST LRE 2007提出的一项新的评测指标,其计算方式如下:
在这里插入图片描述

3.准确率(Accuracy)
(四)数据集
在这里插入图片描述

                           表1 语种识别相关数据集 

(五)竞赛和探讨会
1.东方语种识别挑战赛(Oriental Language Recognition(OLR) Challenge)
OLR挑战赛旨在提高多语种场景下语种识别系统和语音识别识别系统的性能。该竞赛2016年起,连续举办了OLR Challenge 2016、OLR Challenge 2017、OLR Challenge 2018、OLR Challenge 2019、OLR Challenge 2020、OLR Challenge 2021。OLR Challenge 2021中语种识别共有两个赛道,分别是constrained LID和unconstrained LID。constrained LID指每个语音所属的语言都是已知的13种目标语言之一,但是语音是在不同环境下录制的。constrained LID赛道要求只能使用发布的数据来构建LID系统。Unconstrained LID的测试数据来源于现实生活环境.Unconstrained LID赛道可以使用任何数据进行LID系统构建。

2.NIST Language Recognition evaluation(LRE)
Language Recognition evaluation开始1996年,最近的一次是2022年。LRE22的任务是给定一段语音和一种目标语言来确定在测试音频片段中是否使用了目标语言。

3.说话人和语种识别研讨会(Odyssey)
Odyssey(

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值