阿里史上首款AI硬件设备，为何如此“听话”？

最新推荐文章于 2024-07-12 23:11:20 发布

我只是一个小小的搬运工

最新推荐文章于 2024-07-12 23:11:20 发布

阅读量496

点赞数

分类专栏：资源学习自学技术 Python 文章标签： ai 阿里人工智能

学习同时被 3 个专栏收录

139 篇文章 0 订阅

订阅专栏

资源

134 篇文章 1 订阅

订阅专栏

自学

97 篇文章 0 订阅

订阅专栏

7月6日，阿里人工智能实验室发布了旗下首款智能语音终端设备天猫精灵X1。天猫精灵X1内置第一代中文人机交流系统AliGenie。AliGenie生活在云端，它能够听懂中文普通话语音指令，目前可实现智能家居控制、语音购物、手机充值、叫外卖、音频音乐播放等功能，带来崭新的人机交互新体验。

天猫精灵X1和AliGenie均由阿里巴巴的科学家和工程师团队研发，应用了阿里巴巴积累多年的语音识别、自然语言处理、人机交互等技术。

一篇自然语言处理（NLP）的相关论文《一种新的语义编码模型及其在智能问答及分类中的应用》被国际数据挖掘顶会 KDD2017 收录，本次也被应用在天猫精灵里。在自然语言处理的两个核心应用场景------文本分类和智能问答上，天猫精灵这套「即刻唤醒，即刻识别」神经网络模型的智能问答准确率相比微软的 wikiqa 数据集和 IBM 的 insuranceqa 数据集提升了 2-4%，是目前业内最高水准。

本次阿里妹邀请到阿里巴巴人工智能实验室资深算法工程师王成龙，为大家深入解读这篇论文，揭开天猫精灵“听懂人话”的秘密。

语义编码的意义

自然语言这一被人类发明的信号系统，通常被我们归为一种「非结构化数据」。其原因在于，自然语言文本是由一堆符号（token）顺序拼接而成的不定长序列，很难直接转变为计算机所能理解的数值型数据，因而无法直接进行进一步的计算处理。语义编码的目标即在于如何对这种符号序列进行数值化编码，以便于进一步地提取和应用其中所蕴含的丰富信息。语义编码是所有自然语言处理（Natural Language Processing，NLP）工作的「第一步「，同时也很大程度地决定了后续应用的效果。

传统的文本编码方式通常将其当作离散型数据，即将每个单词（符号）作为一个独立的离散型数值，如 Bag-of-Words (BOW)、TF-IDF 等。但是这类方法忽略了单词与单词之间的语义关联性，同时也难以对单词的顺序及上下文依赖信息进行有效编码。近几年，深度学习技术被广泛的应用于 NLP 领域，并在众多算法命题上取得了突破。其本质在于，深度神经网络在特征提取（语义编码）上具有极大的优势。

已有方法的瓶颈

当前，较为常用的文本语义编码模型包括循环神经网络（Recurrent Neural Network，RNN）以及卷积神经网络（Convolution Neural Network，CNN）。

循环神经网络是应用最为广泛的序列数据神经网络建模方法。相对于传统的前向神经网络，循环神经网络的主要特点在于，在每个时刻，其输出不仅要依赖于当前时刻的输入，还要考虑上一时刻的模型「状态」。通过对历史状态的依赖，RNN 模型能够有效的表征文本数据的上下文依存信息。但是，RNN 的「宏伟目标」-有效管理任意跨度的信息传递-往往使得其难以有效的训练，进而也限制了其在具体应用中的效果。

另一被广泛应用的语义编码模型是 CNN 模型。传统的 CNN 建模通常用于解决图像的特征提取。但近年来，众多学者尝试将其应用到文本处理领域。CNN 的模型结构来源于对人类视觉神经信号处理机制的模拟。与文本数据不同的是，图像数据通常被看做一个二维数据结构，而相应的 CNN 模型也更适于提取其中的「局部」特征。但与图像数据相似的是，文本数据中的上下文依赖通常可以被简化为一种「局部」信息，即传统 NLP 领域中的 N-gram 语言模型：文本中一个词的具体含义，通常只和上文有限距离内的几个词相关。因此，CNN 中的「局部卷积」信息处理机制同样可以应用于文本数据中，用于提取文本中的 N-gram 特征。但是，与图像信息不同的是，文本数据中的上下文依赖关系有可能会经历一个很长的跨度。而 CNN 只能对固定范围内的局部依存关系进行建模。因此，CNN 语义编码方法也存在一定的缺陷。

Conv-RNN

近期，我们团队与数据技术及产品部兄弟团队共同投稿一篇 KDD 文章，其中我们提出了一种新的文本语义编码算法 conv-RNN（如图 2 所示）。该模型在参考了循环神经网络与卷积神经网络的同时，进行了进一步的文本语义编码优化。conv-RNN 不仅保留了 RNN 模型对不定长跨度的上下文依赖的编码能力，还利用了 CNN 模型中常用的最大池化机制，用以更加简洁地从文本数据所蕴含的丰富信息中抽离出不同的信息表征。

此外，在 conv-RNN 的基础上，我们还提出了一种新的智能问答（answer selection）模型以及文本分类（sentence classification）模型。为了充分验证所提出的模型的效果，我们分别选取了智能问答及文本分类领域的一批标准数据集，与当前业界的最新成果进行了对比验证。

智能问答

智能问答是当前比较火的一个 NLP 应用领域，也被认为是 NLP 研究最有可能于近期实现商业化落地的一个领域。在 conv-RNN 语义编码算法基础之上，我们进一步提出了一种新的问答匹配模型。此外，在该模型中，我们还引入了一种「权值共享」机制以及 attention 方法，用以进一步提升 question-answer 匹配效果。

我们选用了微软发布的 WikiQA 数据集以及 IBM 发布的 InsuranceQA 数据集用来对比所提出的模型与业界的 state-of-the-art 方法，以验证该模型的有效性。由结果可知，在 WikiQA 数据集上，conv-RNN 击败了所有 state-of-the-art 方法，并且在 MAP（mean average precision）和 MRR（mean reciprocal rank）两个指标上均取得了较大的提升。在 InsuranceQA 数据集上，conv-RNN 在 dev 和 test2 两个测试集上均取得了较大的提升，仅在 test1 上略低于 AP-BILSTM。

文本分类

在 conv-RNN 的基础上，我们进一步提出了一种新的文本分类模型（如图 4 所示）。为了验证该模型的有效性，我们选取了业界常用的 5 个标准的分类数据集：Movie Review（MR）；Stanford Sentiment Treebank-1（SST-1）；Stanford Sentiment Treebank-2（SST-2）；Subj；IMDB。由对比结果可知，conv-RNN 在前 4 个数据集上均超越了各类 state-of-the-art 方法。

总结

语义编码技术是所有 NLP 工作的基础，也是当前 NLP 技术进一步发展的主要「瓶颈」所在。我们在语义理解以及更上层的智能问答、多轮人机交互方向已经有了一定的技术积累，后续还会继续在这一方向发力，以期能够尽快做出为大众服务的人工智能产品。

我只是一个小小的搬运工

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
阿里史上首款AI硬件设备，为何如此“听话”？

7月6日，阿里人工智能实验室发布了旗下首款智能语音终端设备天猫精灵X1。天猫精灵X1内置第一代中文人机交流系统AliGenie。AliGenie生活在云端，它能够听懂中文普通话语音指令，目前可实现智能家居控制、语音购物、手机充值、叫外卖、音频音乐播放等功能，带来崭新的人机交互新体验。天猫精灵X1和AliGenie均由阿里巴巴的科学家和工程师团队研发，应用
复制链接

扫一扫