本节学习了自然语言模型中的“下一句生成”,其中包括了这么一些算法策略去预测下一句话/下一个单词的方法:
贪心算法
(如图示,0.4*0.9的概率最大,但是该算法无法看到后面的概率。)
Beam search(束搜索)
num_beams, 的大小是该算法保留可能概率最大的句子的数量,通过保留少部分可能存在较大概率的句子进行对比留下最大概率的句子,也能节省空间。
Sample
根据上一个词来计算下一个词的概率,文本不容易重样,有创造性,但是可能语句不通畅,生成质量不好。
TopK sample
该算法,选择了前K个单词作为生成备选,忽视了各个单词生成的概率情况。
TopP Sample
根据各个单词的概率总和来选择备选单词库,更加合理。