束集搜索（Beam search）

最新推荐文章于 2025-03-02 13:54:20 发布

liaolaa

最新推荐文章于 2025-03-02 13:54:20 发布

阅读量821

点赞数 22

文章标签：自然语言处理人工智能 nlp 优化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44535934/article/details/136050095

版权

在seq2seq任务重，传统的获取decoder输出的结果过程中，在每一个时间步上，我们只选择概率最大的那个词，作为当前时间步的输出，即在每一个时间步上我们取到的都是最大概率的词。等到解码器获取到 <EOS> 词元结束循环的时候，我们获取到的句子，不一定是最准确的，获得的这个句子可能不通顺。因为贪心的策略，局部最优并不能获取全局最优的结果。

1. 如何解决贪心带来的问题

1.1 计算所有输出的概率

我们可以计算全部的输出的概率乘积，选择最大的那一个作为句子的输出，但是我们输出的句子通常都比较长，而且再这样的情况下我们需要计算的数据量会非常大。

1.2 Beam search

beam search是基于上述贪心策略和1.1中提及方法的的兼顾，我们使用 Beam width 表示每次时间步保存最大概率的个数，即例如当 Beam width = 3 的时候，当前时间步保存了三个，在下一个时间步上也是一样保存三个，即我们通过约束搜索空间的大小来实现提高算法效率。

当 Beam width = 1 的时候，就是贪心策略，当 Beam width = 所有候选词的时候，就是1.1中计算全部的概率。

例如上图，我们的 Beam width = 1 时，我们的输出序列会是 ABB ，并不会得到最好的结果（BBB）。当 Beam width = 2 时，我们在第一个时间步上有最大两个概率 [0.6, 0.4] 故保存 [A, B]，目前序列为A和B；在第二个时间步上有最大两个概率 [0.36, 0.36] 故保存 [B, B]，目前序列为AB和BB；在第三个时间步上有最大两个概率 [0.324, 0.144] 故保存 [B, B]，目前序列为ABB和BBB；所以当 Beam width = 2 时可以获得最好的结果。

1.3 Beam search在seq2seq中如何工作

进一步，我们再看这个例子，输入句子起始 <s> ，输出只会是 [x, y, w, </s>] 这四个中的一个，我们取 Beam width = 3 ：

第一个时间步：选择概率最大的三个词保存 [x, y, w]，并把 [x, y, w] 依次作为下一个时间步输入；

第二个时间步：由 [x, y, w] 依次作为输入分别得到九个输出，选择概率最大的三个保存 [x, y, y]，并把 [x, y, y] 依次作为下一个时间步输入；

第三个时间步：由 [x, y, y] 依次作为输入分别得到九个输出，选择概率最大的三个保存 [x, y, y]，并把 [x, x, x] 依次作为下一个时间步输入；

...

重复上述步骤，直到获得结束符 </s> 为当前输出序列为最大概率时候，或者是当前输出序列达到最大句子长度时结束，如果是第二种结束情况的话，输出序列为最大概率的那一个序列。

所以，输出的情况可能是两种：

1. 输出序列没有达到最大长度的时候，搜索空间中最大概率的序列是以结束符 </s> 结尾的，并将这个序列作为输出序列；

2. 输出序列达到最大长度的时候，在搜索空间中选择最大概率的序列，并将这个序列加上结束符 </s> 作为输出序列；

博客等级

码龄6年

21
原创

496
点赞

324
收藏

345
粉丝

关注

私信

热门文章

最新评论

transformer-Attention is All You Need（一）
interestinggg: 您好，我想问一下为什么embedding_dim必须得被头数h整除，也就是必须h等分，可以不整除嘛
transformer-Attention is All You Need（二）
CSDN-Ada助手: 恭喜您发布了第19篇博客“transformer-Attention is All You Need（二）”，持续创作是非常令人钦佩的。建议您在下一步的创作中，可以尝试结合实际案例来解析Transformer的应用，或者深入研究Transformer与其他模型的对比分析，以便读者更好地理解和应用相关知识。期待您更多精彩的分享！
transformer-Attention is All You Need（一）
CSDN-Ada助手: 恭喜您写了第18篇博客，标题“transformer-Attention is All You Need（一）”！您的持续创作精彩纷呈，对于这一主题的深入探讨让人印象深刻。希望您能继续分享更多关于transformer的知识，并且可以考虑结合实际案例或者应用场景进行更深入的讨论，这样可以让读者更好地理解和应用这些知识。期待您的下一篇作品！
如何在我们的模型中使用Beam search
CSDN-Ada助手: 恭喜作者在第17篇博客中分享了如何在模型中使用Beam search的内容，这对于我们理解模型的应用方式非常有帮助。希望作者能够继续保持创作的热情，分享更多相关的内容，也希望能够在下一篇博客中深入探讨一些实际案例，让读者更好地理解如何将Beam search应用到实际的项目中。期待作者的下一篇作品！
使用二分查找优化时间复杂度
CSDN-Ada助手: 恭喜您写了第16篇博客！使用二分查找优化时间复杂度这个话题非常有意义，能够帮助读者更好地理解算法优化的思路。希望您在未来的创作中继续保持，可以考虑分享一些实际应用场景下的算法优化案例，让读者更容易将理论知识转化为实际应用。期待您的下一篇博客！

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。