概念
通过分类的方式将句子(query)划分到相应的意图种类当中,判断其属于哪个领域的问题。
意图识别的方法
- 基于词典以及模版的规则方法
不同的意图会有不同的领域词典 ,比如书名、歌曲名、商品名等。根据用户的意图和词典的匹配程度或者重合程度来进行判断。 - 基于机器学习模型对用户意图进行判别
通过机器学习和深度学习的方法,对已经标注好的领域语料进行训练学习,得到意图识别的模型。在经过测试集得到语料对应的分类。
fastText
快速文本分类模型
1.快速训练和预测,适合用于工业界
2.重要的优化:层序遍历和N-gram特征
输入的是:句子的n-gram的词向量
中间层:词向量和的平均值(特征)
输出:每个类别的概率,最大的概率就是该句子的类别
【注】
N-gram特征分为字粒度的n-gram和词粒度的n-gram
我喜欢白色的纯种萨摩耶
字粒度(2-gram)
我喜 喜欢 欢白 白色 色的 的纯 纯种 种萨 萨摩 摩耶
词粒度(2-gram)
我/喜欢 喜欢/白色 白色/的 的/纯种 纯种/萨摩耶