在本章我们将开始使用机器学习模型来解决文本分类。
Datawhale零基础入门NLP赛事 - Task3 基于机器学习的文本分类
文章目录
一、目标
- 学会TF-IDF的原理和使用
- 使用sklearn的机器学习模型完成文本分类
二、TF-IDF + RidgeClassifier
//TF-IDF + RidgeClassifier
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import RidgeClassifier
from sklearn.metrics import f1_score
train_df = pd.read_csv('TRAIN_DATA/train_set.csv', sep='\t', nrows=15000)
tfidf = TfidfVectorizer(ngram_range=(1, 3), max_df=