多语种发音词典制作方法分享
本文分享者:数据堂 AI-Lab & 数据产品中心 王丽媛
一、为什么制作发音词典
(一)、因为发音词典使用广泛
语音识别、语音合成。在语音合成数据制作中,文本标注环节需着重处理音素标注问题。
(二)、独立数据资产
数据产品市场的热门数据资源产品
发音词典和语种一一对应:一个语种只需要一个发音词典
发音词典里包含的词汇尽可能全,至少包含语音数据里的所有词
可以一直添加新词汇及对应的音标,不断扩充词典规模
二、什么是发音词典
(一)、标音系统
IPA、 SAMPA、X-SAMPA、 Kirshenbaum、 K.K.音标、 CMU音标 …
1、IPA
每一个可分辨的读音使用一个符号来表示
107个单独字母用于表示辅音和元音;
31个变音符号用于修饰辅音和元音;
19个用于表示超音段成分(包括音长、声调、重 音、语调等)的特殊符号;
举例:马来语单词:pʰə̆ŋə̆mbaɾɐ
每种语言都有专门的音位系统
怎么打印音标符号?
- 选择合适字体:包含标音系统中的所有符号
- 下载IPA输入法:将EN键盘模式转换成IPA模式
- 转换标音系统:使用ASCII符号标音系统
支持IPA音标的可用字体
下载IPA输入法
2、SAMPA
以IPA为基础,只使用 ASCII值在 [32,126] 区间的可打印的符号。
解释:在邮件、博客、论坛等网站上支持的字体非常有限,且在跨平台、跨语言传输时许多符号不可以被正确接收。比如,从英国键盘传送过来的英镑符号(£,ASCII 156)在其他国家可能被接收为!、#等符号。
符号
包括大小写字母A-Za-z、数字0-9、标点符号! “ ‘ ( ) , - . / : ; ? [ ] { }、其他符号# $ % & * + < = > @ \ ^ _ ` | ~、空格。
与IPA的映射
- 小写字母a-z保持不变
- 其他字符由上述符号
重新编码
大多数欧洲语言都已发展了SAMPA表,每张表中都包含了该语言里的所有语音
3、X-SAMPA & Kirshenbaum
SAMPA
SAMPA表有多种语言版本,每种版本设计时都只针对该语言所用到的音标,因此不同版本的SAMPA表互不相容。
X-SAMPA
X-SAMPA是为了统一各种SAMPA字母表而产生的,并且扩展至包含所有国际音标符号,能够把所有音标转写成可打印符号。
Kirshenbaum
也称作ASCII-IPA,是另一种ASCII标音系统
4、多样性
K.K.音标
CMU音标
- 很多语言学家把国际音标做局部修改以标记他们所研究的语言,所以国际音标也有很多种。
- K.K.音标是将国际音标中符合美式英语的符号截取出来,再加上美音特有的儿音组成的音标符号。
- 可以把国际音标当作英式音标,把K.K.音标当作美式音标,但注意, K.K.音标也是国际音标的一种。
- CMU音标更便于语音识别的训练和解码。
(二)、标音方法
国际音标【音标】只有一种,但用法【标音法】有两种
根据语音标示的严谨程度,可分为严式标音和宽式标音
1、严式标音
[方括号]
通常包括较多的语音细节,即使那些细节在该语言中并不被用于区分语义。
2、宽式标音
/斜线/
通常仅记录能区分语义的语音特征,而忽略无关的细节。
小结
严式标音法在标注时较不会有模棱两可的情况
严式标音法过于追求细节而导致过于复杂
在通常使用中,使用宽式标音法比较合适
为什么宽式标音法也正确?
【音位系统】
音位并不是一种实际的语音,一种音位可以有数种不同的发音,但人们在心理上认为它们是相同的。
比如在现代汉语中,音位/a/可以表示[ɛ]、[ʌ]、[a]、[ɑ]、[œ]、[æ]等
比如在英语中,音位/p/可以表示[p]、[pʰ]等
在宽式标音中,同一音位内的音素变化,在一门语言中是自然而然发生的。
三、怎么制作发音词典
(一)、流程
1、语料搜集
自有语料
开源语料
以韩语为例:
自有语料 —> 444372条词汇
zeroth_korean 开源项目 —> 486727条词汇
维基词条 —> 63745条词汇
||
总语料 —> 883724条词汇
2、文本处理
3、发音规则整理
请教专家、调研论文、维基查询
4、字形-音标转换
5、发音词典
以韩语为例:
两个文件:姓名词汇.xlsx 非姓名词汇.xlsx
三列数据:韩语词汇 IPA音标 罗马音标
四、思考
清晰的发音规则
干净的语料
程序的开发
五、总结
关键点:
在开始之前,必须了解该语言的字形结构、音韵结构
为达到98%以上的准确率,必须充分理解专家意见、确保发音规则的准确性