Topic Modeling of Short Texts: A Pseudo-Document View

最新推荐文章于 2024-07-22 09:16:52 发布

吃饭243

最新推荐文章于 2024-07-22 09:16:52 发布

阅读量488

点赞数

分类专栏：自然语言处理文章标签：机器学习人工智能算法

本文链接：https://blog.csdn.net/weixin_50325452/article/details/126125534

版权

自然语言处理专栏收录该内容

1 篇文章 0 订阅

订阅专栏

PTM认为大量的短文本是从数量少得多但大小正常的潜在文档中产生的，这些潜在文档被称为伪文档。
通过学习伪文档而不是短文本的主题分布，PTM具有固定数量的参数，并在训练语料相对不足时获得避免过拟合的能力。

2.1Basic Model

现在我们给出PTM的形式化描述。我们假设有K个主题 ${φ_z }^K_{z=1}$ ，每一个都是规模为V的词汇表上的多项分布。有D个短文本 ${ds}^D_{s=1}$ 和P伪文档 ${{d}^{'}_{l}}^P_{l=1}$ 。**短文本是观察文档，伪文档是潜伏文档。提出了多项式分布 $ψ$ 来对伪文档上的短文本分布进行建模。我们进一步假设每个短文本属于且仅属于一个伪文档。**短文本中的每个单词都是先从其伪文档的主题分布θ采样一个主题z，然后采样一个单词w ~ φ 生成的z 。
Remark1 (PTM从P个伪文档而不是D个短文本中寻找主题， $P\ll D$ 。)
- PTM中引入伪文档是对抗数据稀疏性负面的关键因素。为了更好地理解这一点、假设有D个短文本，每个文本平均有N个tokens。已经证明，**当N太小时，即使D是非常大的，LDA也无法准确地学习主题。**这是因为在这种情况下，分散在不同短文本中用于主题学习的同现词的短缺并没有得到改善。然而，**PTM从P个伪文档而不是D个短文本中寻找主题， $P\ll D$ 。**因此，我们可以粗略估算出每个伪文档平均有 ${N}^{'}$ 个tokens， ${N}^{'} = DN / P \gg N$ ，这意味着单词共现的潜在改进。
Remark2 (给定短文本所属的唯一伪文档，PTM根据LDA的过程生成短文本。)
- 除了自聚合话题模型(self - aggregate Topic Model, SATM)，像PTM这样的自聚合方法在文献中仍然很少见到。虽然PTM和SATM都将短文本聚合成伪文档，但它们的生成过程有本质上的不同。SATM假定短文本的生成过程是两阶段的。第一阶段遵循标准LDA生成常规大小的伪文档，第二阶段将通过unigram的混合过程从其伪文档生成每个短文本。第一阶段意味着采样一个单词将花费 $O (P K)$ 时间，这是非常密集的。第二阶段意味着推理过程必须独立估计伪文档在短文本上的概率分布，因此参数的数量会随着语料库的大小线性增长，在训练样本不足的情况下可能会导致严重的过拟合问题。与之形成鲜明对比的是，给定短文本所属的唯一伪文档，PTM根据LDA的过程生成短文本。这意味着采样一个单词只需要O(K)的时间，并且参数的数量是固定的，以避免过拟合。
Remark3
- 讨论PTM和so-called Pachinko Allocation Model (PAM)的异同也是很有趣的。PAM被提出使用一个有向无环图来捕获主题之间的任意相关性，因此被认为是LDA的一个更一般的版本。因此，尽管四层层次PAM(Figure 2b)显示了与PTM(Figure 2a)相似的模型结构，但它们在本质上是不同的。在Figure 2b中，PAM的第二层由捕获第三层子主题(全部用蓝色表示)之间共性的超级主题组成。从这个意义上说，我们可以从第三层到第二层获得数量减少的话题。相比之下，PTM的第二层中的节点表示伪文档(绿色)，因此比第三层中的主题节点(蓝色)在数量上更多，并且应该更好地被视为可以生成短文本的特定主题的组合主题。

2.2 Sparsification

如上所述，PTM中的伪文档本质上是由各种简短文本的特定主题组合而成的混合主题。沿着这条线，人们很自然地猜测，当伪文档的数量越来越少时，它们的主题表示往往是模棱两可的。为了解决这个问题，我们在这里提出了SPTM，这是PTM的一种稀疏化版本，应用Spike和Slab先验对伪文档的主题分布进行处理。
“Spike and Slab”先验是数学中一个非常成熟的方法。它可以解耦分布的稀疏性和平滑性。在细节上，辅助伯努利变量被引入先验，用来表示特定变量的“开”或“关”状态。因此**，一个模型可以确定相应的变量是否出现**。在我们的例子中，这表示是否选择了一个主题出现在特定的伪文档中。
请注意，Spike和Slab先验可能有空选择，这将导致概率分布定义不清。Wang和Blei在主题分布中引入了从未出现过的术语，这可能会给推理过程带来更大的困难。因此，我们应用了Lin等人提出的弱平滑先验和平滑先验，通过直接应用Spike和Slab先验，可以避免分布定义不清。此外，它导致了一个更简单的推理过程，这确保了我们的模型的可扩展性。为了更好地描述我们的稀疏增强模型，我们首先给出了主题选择器(topic selectors)、平滑先验(smoothing prior)和弱平滑先验(weak smoothing prior)的定义。
- 定义1：对于伪文档 ${d}^{'}_l$ ，主题选择器 $b_{l,k}， k∈{1，···，k}$ ，是一个二元变量，表示主题k是否与 ${d}^{'}_l$ 相关。 $b_{l,k}$ 是从 $Bernoulli(π_l)$ 中采样,其中 $π_l$ 是 ${d}^{'}_l$ 的伯努利参数。
  - 伯努利分布指的是对于随机变量X有, 参数为p(0<p<1)，如果它分别以概率p和1-p取1和0为值。
- 定义2：平滑先验是 $D i r i c h l e t$ 超参数α，用于平滑由主题选择器选择的主题。弱平滑先验是另一个 $D i r i c h l e t$ 超参数 $\overline{\alpha}$ ，用于平滑未选择的主题。由于 $\overline{\alpha}\ll \alpha$ ，超参数 $\overline{\alpha}$ 被称为弱平滑先验。
  - 主题选择器被称为“Spikes”，而平滑先验和弱平滑先验对应的是“slab”。
这样，就实现了伪文档主题比例的稀疏性和平滑性的解耦。给定主题选择器 $\vec{b_l}$ = { $b_{l,k}$ } $^K_{k=0}$ ，伪文档 ${d}^{'}_l$ 的选题比例从 $Dir(α\vec{b_l} +\overline{\alpha}\vec{1})$ 中采样。 $\overline{\alpha}$ 的引入修复了分布的病态定义，同时保持了稀疏性的效果。
Fig. 1b说明了SPTM的板块表示法。伪文档的完整生成过程如下:

2.3 Inference

精确的后验推断在我们的模型中是难以处理的，所以我们求助于用于近似后验推断的collapsed Gibbs采样算法，该算法推导简单，在速度上与其他estimators相当，并且可以近似全局最大值。由于空间的限制，我们省略了推导的细节，只给出了采样公式。
我们在下面给出关于SPTM推断的细节，并在本节的最后描述PTM的推断。对θ、φ、ψ和π进行解析积分，采样算法所需的潜变量是伪文档赋值l、主题赋值z和主题选择器b，我们还对 $D i r i c h l e t$ 超参数 $\alpha$ 和Beta超参数 $\gamma_1$ 进行了采样，并使 $\overline{\alpha}$ 等于 $10^{-7}$ 和 $\gamma_0$ 等于1。
采样伪文档赋值l，给定剩余变量，采样l类似于 $D i r i c h l e t$ 多项式混合物的采样方法。也就是说
- 其中 $M_l$ 是分配给第l个伪文档 ${d}^{'}_l$ 的短文本的数量。 $N_{ds}$ 是第s个短文本 $d_s$ 的长度， $N_{ds}^z$ 是 $d_s$ 中分配给话题z的tokens。 $N_{ds}^z$ 是 ${d}^{'}_l$ 中分配给主题z的tokens数， $N_l$ 是 ${d}^{'}_l$ 中的tokens总数。所有带 $\lnot d_s$ 的计数表示不包括来自 $d_s$ 的计数。 $b_{l,z}$ 是主题z的伪文档 ${d}^{'}_l$ 的主题选择器。 $A_l = \left\{z: b_{l,z} = 1, z∈\left\{1，···，K\right\}\right\}$ 是 $\vec{b_l}$ 的“on”索引集，， $A_l|$ 是 $A_l$ 的大小。
采样主题赋值z。抽样主题赋值z的方法类似于潜在的 $D i r i c h l e t$ 分配。不同之处在于θ不再属于原始短文本，而是属于伪文档。而θ的采样来自Spike和Slab先验，而不是 $sy mm e t r i cD i r i c h l e tp r i or$ 。也就是说,
- 其中 $N^w_z$ 是w被分配给主题z的次数，并且 $N_z = \sum^V_{w = 0} N^w_z$
采样主题选择器b。为了采样 $\vec{b_l}$ ，我们跟随Wang等人来使用 $π_l$ 作为辅助变量。让
是伪文档 ${d}^{'}_l$ 中有赋值的主题集合。给出了 $π_l$ 和 $\vec{b_l}$ 的联合条件分布
- 其中I[·]是一个指标函数。有了这个联合条件分布，我们在 $π_l$ 上迭代采样 $\vec{b_l}$ 并在 $\vec{b_l}$ 上迭代采样 $π_l$ ，以最终获得 $\vec{b_l}$ 的样本。注意，Wang等人在主题收敛缓慢的情况下对b进行积分，并对π进行采样。由于V很大，搜索最优组合主题的代价非常高。然而，在我们的例子中，K相对于V来说是相对较小的，并且根据π对z进行采样是非常耗时的。基于上述考虑，我们采取了相反的方法，通过积分 $\pi$ 对b进行采样。
- 对于超参数α，我们使用具有对称高斯分布的Metropolis-Hastings作为proposal distribution。对于concentration parameter γ1，我们使用以前开发的方法用于Gamma先验。
- 到目前为止，我们已经说明了SPTM的collapsed Gibbs采样算法。现在我们简单描述一下PTM的推断。在对θ、φ和ψ进行解析积分后，抽样算法所需的潜变量为伪文档赋值l和主题赋值z。 $用\alpha 代替 b_{l,z}\alpha+\overline{\alpha}$ 和 $用K\alpha 代替|A_l|\alpha+K\overline{\alpha}$ 在Equation 1中，我们得到l的抽样方程。同样，用b代替l,z 方程2中的α+ α¯和α，我们得到z的抽样方程。