DiffuSum: Generation Enhanced Extractive Summarization with Diffusion
论文信息:
来源:
IFM Lab, Department of Computer Science, University of California, Davis, CA, USA
haopeng,xiao,jiawei@ifmlab.org
作者:Haopeng Zhang∗, Xiao Liu∗, Jiawei Zhang
1.Motivation
- 大多数的抽取式摘要,通常被表述为一个序列标注问题,通过预测每一个句子的0/1标注,来判断句子是否包含在摘要中。而Ming Zhong, Pengfei Liu(2020)提出的MatchSum模型表示,summary-level的方法,更有利于生成一个好的摘要,但它仍然要先采用序列标注法来获取top-k的句子,才能进一步使用summary-level的方法。
- 由于生成模型具有更大的灵活性,并考虑了输入上下文的整体性,将生成模型应用于广泛的token-level序列标记任务,已经获取了成功(如:生成式摘要)。然而,如何将生成模型应用于sentence-level的任务,如抽取式摘要,尚未得到研究。
- 最近,已经有学者研究如何将diffusion models用于NLP文本生成任务中,并取得不错的结果。
- 因此,本文提出了一种新的摘要抽取范式DiffuSum,通过扩散模型直接生成所需的摘要句子表意,并基于句子表意匹配进行句子抽取。此外,DiffuSum联合优化了一个对比句编码器,该编码器具有匹配损失(用于句子表示对齐)和多类对比损失(用于表示多样性)。
2.Contribution
- 提出了将生成模型用于抽取式摘要的新范式
- 是对summary-level抽取式摘要的补充
3. Model
在获取句子表示时,并未使用预训练语言模型,只是做了句子的嵌入。文章提出使用Sentence-BERT获取句子表示,来自论文,还没有细看。Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
私人认为,编码器具有匹配损失(用于句子表示对齐)和多类对比损失(用于表示多样性),是因为没有用预训练模型,所以需要定义损失函数,来学习参数,进行训练,更好地获取句子的表示。(因为预训练模型,已经在大量语料库上做了训练,可以比较好的学习句子的表示,在用预训练模型做编码器的模型中,是没有这两个损失函数的定义的)-----不知道理解是否正确,如果理解错了,可以在评论中指出,感谢批评指正
数学功底太差,对论文中,损失函数的定义不能直观理解,也没看懂扩散模型一步一步是怎么做的。
4. Experiments
实验结果没有很大提升,只是方法比较新颖。
5. Key takeaways
- 首先,获取源文档和摘要的句子表示;其次,将其输入到扩散模型中,扩散模型先对其添加噪声,后去除噪声,获取生成摘要的句子表示;最后,将生成摘要中的每一个句子与源文档做相似度匹配,抽取匹配度最高的句子,一起组成摘要。
- 提出的一个观点,ORACLE中的摘要句子,与人工标注的摘要是不匹配的,它仅仅只是贪心算法获取的rouge得分最高句子的组合。
- 本文的方法,类似于先根据人工标注的摘要,在理解原文的基础上,生成新摘要,再根据新摘要与原文做匹配,抽取句子(此时可以认为新摘要已经包含了原文意思,所以比ORACLE好???)
- 有些不懂,已经生成了摘要,为什么还要去与源文本做匹配,是为了确保最终摘要的真实性和准确性吗?