[CS224n] n gram & FastText

最新推荐文章于 2021-03-05 19:58:18 发布

兔子不吃胡萝卜

最新推荐文章于 2021-03-05 19:58:18 发布

阅读量169

点赞数

分类专栏： CS224n学习笔记

本文链接：https://blog.csdn.net/xuyuan______/article/details/107051944

版权

CS224n学习笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

n gram

N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。
每一个字节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。
该模型基于这样一种假设，第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。

FastText

fastText 模型输入一个词的序列（一段文本或者一句话)，输出这个词序列属于不同类别的概率。序列中的词和词组组成特征向量，特征向量通过线性变换映射到中间层，中间层再映射到标签。fastText 在预测标签时使用了非线性激活函数，但在中间层不使用非线性激活函数。fastText 模型架构和 Word2Vec 中的 CBOW 模型很类似。不同之处在于，fastText 预测标签，而 CBOW 模型预测中间词。
FastText= word2vec中 cbow + h-softmax的灵活使用

参考：
https://zhuanlan.zhihu.com/p/32829048
https://blog.csdn.net/sinat_26917383/article/details/54850933