BERTopic简介
BERTopic论文地址:BERTopic: Neural topic modeling with a class-based TF-IDF procedure
BERTopic
是一种结合了预训练模型BERT
和主题建模的强大工具。它允许我们将大规模文本数据集中的文档映射到主题空间,并自动识别潜在的主题。
它背后的核心思想是通过BERT
模型来捕获文档的语义信息,并然后使用主题建模技术来对这些语义信息进行聚类,从而得出主题。
模型加载地址
https://public.ukp.informatik.tu-darmstadt.de/reimers/sentence-transformers/v0.2/
- 默认的英文文本嵌入模型:
all-MiniLM-L6-v2
- 支持中文或其他50多种语言的多语言文本嵌入模型:
paraphrase-- multilingual-MiniLM-L12-v2
,该模型与基本模型非常相似,但经过多种语言训练,并且体系结构略有不同。