VoiceXML语音上网

VoiceXML语音上网

朱茜、朱新亚

  有许多交互式语音应用程序可以让用户通过按键式电话与计算机交流。但是,通常呼叫者需要浏览的菜单很长,而且很花时间。同时,让呼叫者一边听电话,一边在蜂窝电话的小型键盘上搜索并且按钮要按得正确,是很困难的事情。因此用户需要IVR用户界面来与计算机交流。

  VoiceXML 2.0是一种标记语言,用来构建语音界面——有语音的 HTML。语音浏览器类似 Web 浏览器,它通过解释VoiceXML 2.0脚本来向用户提供语音信息并接受用户的语音请求。

  万维网联盟(W3C,World Wide Web Consortium)全力推荐使用VoiceXML 2.0,它通常被理解为一种Web标准。该标准添加了语音识别语法格式,用来识别用户可能就提示回答的字词,上一版本没有这一功能。

  为了更好地理解VoiceXML 2.0,可以将VoiceXML和HTML进行类比。采用HTML的Web应用可以分为两部分:浏览器和Web服务器。相应地,VoiceXML涉及的组件也可分为语音浏览器和相当于Web服务器功能的应用服务器。

  由于电话(包括很多蜂窝电话)没有计算功能,无法管理语音浏览器,所以语音浏览器驻留在网络上的语音服务器中。语音服务器可以位于企业数据中心,或者 位于主管供应商处。用户拨叫一台语音服务器,该服务器从一台应用服务器上下载VoiceXML 2.0脚本、语法格式和声音文件。语音浏览器以一种语音信息的形式将VoiceXML 2.0脚本翻译给用户听,语音信息可以是预先录制的语音,或经由一个文本语音合成器产生的文本。然后语音浏览器调用一个自动语音识别(ASR)软件,使用 语法格式来识别出用户响应的语音词汇。

  下面我们来看一个具体的例子:

  系统:“欢迎致电小李。请问您想接通销售部门、会计部门还是维护部门?”

  用户:“维护部门。”

  ASR 将识别用户的语音回复。在上面这个例子中,语法格式只包括三个词:“销售部门”、“会计部门”和“维护部门”。由于ASR的语法格式仅由有限数量的单词组 成,这种语法驱动的ASR比起听写式ASR执行更为精确。听写式ASR则是试图识别用户说出的大多数英语或其他语言的单词。

  开发人员使用VoiceXML 2.0来为多种应用程序和信息(包括有时效性的数据、业务数据和个人信息)提供电话用户界面。有了这些应用程序,用户只需要从任意电话拨入,表明身份并请 求所需的信息,就可以随时随地访问企业数据。客户还可以使用这些系统来访问订单状态;以及目录、交付和账户信息。

  有许多交互式语音应用程序可以让用户通过按键式电话与计算机交流。但是,通常呼叫者需要浏览的菜单很长,而且很花时间。同时,让呼叫者一边听电话,一边在蜂窝电话的小型键盘上搜索并且按钮要按得正确,是很困难的事情。因此用户需要IVR用户界面来与计算机交流。

  VoiceXML 2.0是一种标记语言,用来构建语音界面——有语音的 HTML。语音浏览器类似 Web 浏览器,它通过解释VoiceXML 2.0脚本来向用户提供语音信息并接受用户的语音请求。

  万维网联盟(W3C,World Wide Web Consortium)全力推荐使用VoiceXML 2.0,它通常被理解为一种Web标准。该标准添加了语音识别语法格式,用来识别用户可能就提示回答的字词,上一版本没有这一功能。

  为了更好地理解VoiceXML 2.0,可以将VoiceXML和HTML进行类比。采用HTML的Web应用可以分为两部分:浏览器和Web服务器。相应地,VoiceXML涉及的组件也可分为语音浏览器和相当于Web服务器功能的应用服务器。

  由于电话(包括很多蜂窝电话)没有计算功能,无法管理语音浏览器,所以语音浏览器驻留在网络上的语音服务器中。语音服务器可以位于企业数据中心,或者 位于主管供应商处。用户拨叫一台语音服务器,该服务器从一台应用服务器上下载VoiceXML 2.0脚本、语法格式和声音文件。语音浏览器以一种语音信息的形式将VoiceXML 2.0脚本翻译给用户听,语音信息可以是预先录制的语音,或经由一个文本语音合成器产生的文本。然后语音浏览器调用一个自动语音识别(ASR)软件,使用 语法格式来识别出用户响应的语音词汇。

  下面我们来看一个具体的例子:

  系统:“欢迎致电小李。请问您想接通销售部门、会计部门还是维护部门?”

  用户:“维护部门。”

  ASR 将识别用户的语音回复。在上面这个例子中,语法格式只包括三个词:“销售部门”、“会计部门”和“维护部门”。由于ASR的语法格式仅由有限数量的单词组 成,这种语法驱动的ASR比起听写式ASR执行更为精确。听写式ASR则是试图识别用户说出的大多数英语或其他语言的单词。

  开发人员使用VoiceXML 2.0来为多种应用程序和信息(包括有时效性的数据、业务数据和个人信息)提供电话用户界面。有了这些应用程序,用户只需要从任意电话拨入,表明身份并请 求所需的信息,就可以随时随地访问企业数据。客户还可以使用这些系统来访问订单状态;以及目录、交付和账户信息。


  VoiceXML组件

找了很久的VoiceXml开发工具,小巧而实用,由华为开发,希望对大家有用。   VoiceXML是建立于XML 语言规范基础之上,是一种应用于语音浏览的标记语言。利用VoiceXML可以建立基于WEB语音应用和服务。本文简要描述了VoiceXML规范及相关术语,并给出了一种基于VoiceXML语音与数据集成模型,它主要由语音浏览器语音识别、语音合成和VoiceXML网关等部分组成。应用该模型,可以方便地建立各种基于WEB语音应用系统。随着电子商务、客户服务等信息服务的普遍化,交互式语音应答系统(IVR ,Interactive Voice Response)在各种商业系统中的应用越来越广泛。然而这种语音交互方式存在以下缺点:(1)移植性、灵活性差;(2)在实际系统上做应用开发的难度很大,特别是涉及到话音流程的编写及调试问题;(3)无法综合利用现在的WEB资源。而将IVR系统Internet化,可以增加系统可重用的机会,降低成本,这必将成为今后语音应用的一种主要趋势。另一方面,到目前为止,人们从Internet获取各种资源时,还只能是借助计算机来实现。而实际上,电话具有比计算机更高的普及率,如果允许人们通过电话来访问Internet的资源,那么这对于Internet的应用发展必将是一次质的飞跃。在这类应用前景的驱动下,VoiceXML 标准被提出来了,它是由World Wide Web Consortium (W3C)制定的。利用这种技术,用户可以通过电话按键或语音来访问Internet上的各种资源,它是语音浏览技术以及语音互联网的核心。与XML标准类似,VoiceXML是一种基于文本的语言,它只定义了数据的存取方式,用户必须编写程序,以便能解释、生成、传送VoiceXML文档。 VoiceXML语音应用领域展现了一个广阔的未来,在语音门户、语音呼叫中心(Call Center) 、语音信息服务、语音电子商务等领域有着广泛的应用。而这些应用或服务可以很容易地和原有的数据系统结合起来,甚至可以轻易地从原有的各类应用中延展出来。使用VoiceXML的应用系统中,不要求用户学习复杂的高级语言,就可灵活扩充新业务。而无需再与开发商联系,重新定制开发,只需要编写几个 VoiceXML页面就可以实现新的业务流程。而且编制好的VoiceXML脚本可以随时随地加入到系统中,而不会影响系统的正常运行。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值