NLP基础学习(五)
复杂度降低
其中U为周围词矩阵,V为中心词矩阵。
方法一:层次softmax
假如词表大小为8,做softmax需要计算8次,而sigmoid满二叉树方法只需要计算3次就可以得到结果
比满二叉树更快的方法就是构建哈夫曼树:
带权重路径最短二叉树
在CBOW上的层次softmax:
第二种方法:负采样
核心思想:舍弃多分类来提升速度
如何采样:
选用3/4使得出现频率大的词适度减小,出现频率小的词适度增大概率。
这样做的好处可以加速训练,并且使得训练效果更好。
CBOW与负采样的配合使用:
最后一个技术:重采样
出现次数多的词往往携带的信息少,而出现次数低的词携带的信息往往更多。