语音合成标记语言 (SSML) 是一种基于 XML 的标记语言,可用于微调文本转语音输出属性,例如音调、发音、语速、音量等。 与纯文本输入相比,你拥有更大的控制权和灵活性。
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="string">
<mstts:backgroundaudio src="string" volume="string" fadein="string" fadeout="string"/>
<voice name="string" effect="string">
<audio src="string"></audio>
<bookmark mark="string"/>
<break strength="string" time="string" />
<emphasis level="value"></emphasis>
<lang xml:lang="string"></lang>
<lexicon uri="string"/>
<math xmlns="http://www.w3.org/1998/Math/MathML"></math>
<mstts:audioduration value="string"/>
<mstts:express-as style="string" styledegree="value" role="string"></mstts:express-as>
<mstts:silence type="string" value="string"/>
<mstts:viseme type="string"/>
<p></p>
<phoneme alphabet="string" ph="string"></phoneme>
<prosody pitch="value" contour="value" range="value" rate="value" volume="value"></prosody>
<s></s>
<say-as interpret-as="string" format="string" detail="string"></say-as>
<sub alias="string"></sub>
</voice>
</speak>
标签解释:
audio
:如果音频文件不可用或不可播放,可在audio
元素的正文中包含可讲述的纯文本或 SSML 标记。audio
元素还包含文本和以下元素:audio
、break
、p
、s
、phoneme
、prosody
、say-as
和sub
。bookmark
:此元素不能包含文本或任何其他元素。break
:此元素不能包含文本或任何其他元素。emphasis
:此元素可包含文本和以下元素:audio
、break
、emphasis
、lang
、phoneme
、prosody
、say-as
和sub
。lang
:此元素可包含除mstts:backgroundaudio
、voice
和speak
以外的所有其他元素。lexicon
:此元素不能包含文本或任何其他元素。math
:此元素只能包含文本和 MathML 元素。mstts:audioduration
:此元素不能包含文本或任何其他元素。mstts:backgroundaudio
:此元素不能包含文本或任何其他元素。mstts:express-as
:此元素可包含文本和以下元素:audio
、break
、emphasis
、lang
、phoneme
、prosody
、say-as
和sub
。mstts:silence
:此元素不能包含文本或任何其他元素。mstts:viseme
:此元素不能包含文本或任何其他元素。p
:此元素可包含文本和以下元素:audio
、break
、phoneme
、prosody
、say-as
、sub
、mstts:express-as
和s
。phoneme
:此元素只能包含文本,不能包含任何其他元素。prosody
:此元素可包含文本和以下元素:audio
、break
、p
、phoneme
、prosody
、say-as
、sub
和s
。s
:此元素可包含文本和以下元素:audio
、break
、phoneme
、prosody
、say-as
、mstts:express-as
和sub
。say-as
:此元素只能包含文本,不能包含任何其他元素。sub
:此元素只能包含文本,不能包含任何其他元素。speak
:SSML 文档的根元素。 此元素可包含以下元素:mstts:backgroundaudio
和voice
。voice
:此元素可包含除mstts:backgroundaudio
和speak
以外的所有其他元素。
语音服务可自动适当处理停顿(例如,在句号后面暂停片刻),或者在以问号结尾的句子中使用正确的音调。
更改语速示例
此 SSML 片段演示如何使用 rate
属性将语速更改为比默认语速高 30%。
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="en-US-JennyNeural">
<prosody rate="+30.00%">
Enjoy using text-to-speech.
</prosody>
</voice>
</speak>
使用案例: