其他TM:Polylingual Topic Model(PLTM)

最新推荐文章于 2017-10-13 19:22:24 发布

windows2

最新推荐文章于 2017-10-13 19:22:24 发布

阅读量1.1k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/windows2/article/details/28035689

版权

机器学习专栏收录该内容

12 篇文章

订阅专栏

介绍了一个多语言主题模型（Polylingual Topic Model, PLTM），该模型能够利用跨语言的文本集合来挖掘隐藏的主题关系。PLTM通过将来自不同语言但含义相似的文档集合在一起，形成一个多语言的文档元组，进而估计出每个主题下不同语言的词汇分布。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考文献：《polylingual topic model》

这个模型用于多个语言，所以叫poly lingual。

背景是，不同语言之间，存在用多种语言表达同一个concept的现象。

可以找到对应于同一个意思的wiki或者一些法律条文文本。但是，这些文本又不像statistic translate machine那样，是word/phrase/sentence级别对齐的，只能说concept大体上对应。可以通过doc级别的对应，来挖掘隐藏的topic关系

假设有L种语言，每组L个同义文本组成一个tuple=<d1, d2, ...,dL >。PLTM中，假设每个tuple对应同一个topic的分布/theta。同样，每个topic，对应于一族L个词分布/phi={/phi1, /phi2,...,/phiL}，每个/phi_i是一个分布。其余假设同LDA。