使用OCTIS进行主题模型BERTopic的评估

本文档介绍了如何使用OCTIS库对BERTopic主题模型进行数据处理、模型评估,包括预处理数据,创建Dataset对象,评估主题连贯性和多样性,并提供了相关代码示例。
摘要由CSDN通过智能技术生成
   最近在学习自然语言处理的主题模型部分,发现很多网上的主题模型相关的文章只有数据处理和模型训练部分,没有模型评估部分,通过查阅OCTIS(一个常用的主题模型评估库)的官方文档,学习了一些OCTIS的使用方法,这里以对BERTopic主题模型进行主题连贯性和主题多样性的评估、
   **安装包版本:**
      BERTopic:0.14.1 (三月份最新的版本)
      OCTIS: 0.12.0(最新版本)

官方文档链接为(OCTIS

通过具体查阅官方文档代码可知:

1、数据处理

如果要使用OCTIS,就需要对训练数据首先进行处理,这里的处理部分可以使用octis自带的preprocess

import os
import string
from octis.preprocessing.preprocessing import Preprocessing
os.chdir(os.path.pardir)

# Initialize preprocessing
preprocessor = Preprocessing(vocabulary=None, max_features=None,
                             remove_punctuation=True, punctuation=string.punctuation,
                             lemmatize=True, stopword_list='english',
                             min_chars=1, min_words_docs=0)
# preprocess
dataset = preprocessor.preprocess_dataset(documents_path=r'..\corpus.txt', labels_path=r'..\labels.txt')

# save the preprocessed dataset
dataset.save('hello_dataset')

Preprocessing大类中是一些对数据的处理操作,包括停用词去除,词形还原等。
调用Preprocessing类下的preprocess_dataset方法对文档进行处理,labels_path对应每个文档的主题标记的文件,不是必要的,可以只填文档文件。
该方法会初始化返回一个Dataset对象,里面有corpus语料,vocabulary词组文件,labels主题标记文件等。
Dataset自带一个save对象,会把Dataset对象中的数据保存在路径文件夹中,保存格式为:

corpus file: a .tsv file (tab-separated) that contains up to three c

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值