文章目录
bertopic介绍
BERTopic
是基于深度学习的一种主题建模方法。BERT
是一种用于 NLP
的预训练策略,它成功地利用了句子的深层语义信息。
20 newsgroups dataset
fetch_20newsgroups
数据集包含来自20个不同新闻组的文本数据。每个新闻组都包含多篇新闻文档,总共约有18,000
篇文档。 该数据集的文本数据涵盖了多个主题,包括科技、政治、体育、娱乐等。每个文档都被分配了一个特定的标签,表示其所属的新闻组类别。 fetch_20newsgroups
数据集是一个常用的用于文本分类任务和主题建模任务的基准数据集之一。
20 newsgroups数据集下载
对网络有要求,可以直接进行使用。否则也可以直接下载20news-bydate_py3.pkz
文件并放在合适的scikit_learn_data
文件夹位置。
在site-packages
文件夹的\site-packages\sklearn\datasets\_twenty_newsgroups.py
的python
文件中更改加载路径。
数据导入