文本分析过程是对原文本进行分析处理,识别冗余信息;文本内容的选取和泛化过程是从文档中辨认重要信息,通过摘录或概括的方法压缩文本,或者通过计算分析的方法形成文摘表示;文摘的转换和生成过程实现对原文内容的重组或者根据内部表示生成文摘并确保文摘的连贯性。文摘的输出形式依据文摘的用途和用户需求确定。由于不同的系统所采用的具体实现方法不同,因此,在不同的系统中上述几个模块所处理的问题和采用的方法也有所差异。例如,在基于句子抽取的多文档文摘系统中,其基本思想是通过计算句子之间的相似性,抽取文摘句,然后对文摘句排序的方法生成最后的文摘,因此,其核心技术集中在句子相似性计算、文摘句抽取和文摘句排序三个问题上,并不需要经过文摘表示这一中间环节。
15.2 多文档摘要
在单文档摘要系统中,一般都采用基于抽取的方法。而对于多文档而言,由于在同一主题中的不同文档中不可避免地存在信息交叠和信息差异,因此,如何避免信息冗余,同时反映出来自不同文档的信息差异是多文档文摘中的首要目标,而要实现这个目标通常意味着要在句子层以下做工作,如对句子进行压缩、合并、切分等。所以,多文档摘要系统所面临的问题更加复杂。
常用的冗余识别方法通常有两种,一种是聚类的方法,测量所有句子对之间的相似性,然后用聚类方法识别公共信息的主题。另一种做法是采用候选法,即系统首先测量候选文段与已选文段之间的相似度,仅当候选段有足够的新信息时才将其人选。如最大边缘相关法 MMR。
辨认重要信息的常用方法有抽取法和信息融合法。抽取法的基本思路是选出每个聚类中有代表性的部分(一般为句子),默认这些代表性的部分(句子)可以表达这个聚类中的主要信息。信息融合(information fusion)法的目的是要生成一个简洁、通顺