
大模型采样技术(从头到尾明明白白的~)
Top-p 采样中,采样不只是在最有可能的 K 个单词中进行,,而是在累积概率超过 P 的最小单词集中进行。在 Top-K 采样中,概率最大的 K 个词会被选中,然后对这 K 个词重新归一化,最后在这重新归一化概率后的 K 个词进行采样。假设 p=0.92,Top-p 采样对单词概率进行降序排列并累加,然后选择概率和首次超过 p=0.92 的单词集作为采样池。在 t=1 的时候,词集有 9 个词,而在 t=2 的时候,他只需要选择前三个词就超过了 0.92.对于输出概率陡峭的情况,可能效果不好。

























