The Curious Case of Neural Text Degeneration

本文提出了Nucleus Sampling方法,旨在改进开放和非开放文本生成中的解码策略。通过从概率分布的核心部分采样,该方法有效避免了传统argmax解码导致的重复和不自然文本,同时保持了多样性的输出。研究发现,最大化概率的解码方式与人类文本的分布特性显著不同,并揭示了重复反馈循环和过度依赖短期上下文的问题。Nucleus Sampling通过动态调整候选池,减少了从低概率词汇中采样的风险,提高了生成文本的质量和连贯性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

主要贡献

提出了一种核采样方法Nucleus Sampling,解决了现有解码方式的局限性。关键的直觉是,绝大多数的概率质量集中在分布的核心部分,即词汇表的一个小子集,它跨越了从一个到几百个候选词之间的任何地方。我们不依赖于固定的顶部k,而是建议从概率质量的顶部p部分进行抽样,动态地扩展和收缩候选池。核采样有效地减少了从不可靠的尾分布(机器文本中许多笨拙短语的来源)提取单词的风险,同时允许比似然最大化译码方法更多样化。

主要内容

Open-ended Generation

Open-ended Generation的任务是生成上下文连贯的文本。包括条件性的故事生成与上下文连续文本生成。
Context:m个token组成的句子{x1 . . . xm}
Goal:生成接下来连续的n个连续token去获得完整的句子{x1 . . . xm+n}
在这里插入图片描述

Non-open-ended Generation

自由度比开放式的要小,作者提出的解决方法能够解决这种生成面临的挑战,就像开放式情况一样。开放生成和非开放生成并不是严格的两分法,因为有些任务可能介于两者之间,这取决于输出生成中预期的自由度或输入与输出之间的语义一致性程度。例如,书籍级别的摘要更接近于开放式的情况,而句子压缩更接近于非开放式的情况。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值