fasttext是word2vec作者提出的文本分类算法。它是一个用于高效学习单词表示和文本分类的库。
常见应用就是文本分类。github地址:https://github.com/facebookresearch/fastText
本篇博客主要介绍fasttext在python下的基本应用
安装
pip install fasttext
使用
训练样本train_data.txt
的格式介绍
每一行是文本+分类标签
分类标签最好形如__label__news
,__label__
表示分类标签的前缀,news
表示分类的标签
测试样本test_data.txt
格式同训练样本
import fasttext
# 训练监督文本,train_data.txt,模型会默认保存在当前目录下,名称为"fasttext_test.model.bin";thread表示以3个线程进行训练,不加默认1个线程
classifier = fasttext.supervised('train_data.txt',