NLP新闻文本分类学习赛 - Task3 基于机器学习的文本分类

最新推荐文章于 2021-11-01 23:34:15 发布

cxm 17

最新推荐文章于 2021-11-01 23:34:15 发布

阅读量245

点赞数

分类专栏： Datawhale零基础入门

本文链接：https://blog.csdn.net/weixin_45415853/article/details/107494329

版权

本章介绍如何运用机器学习模型进行文本分类，重点讲解TF-IDF和RidgeClassifier的结合，以及TfidfVectorizer和HashingVectorize的参数调整，包括max_df/min_df、ngram_range和max_features等，旨在提升文本分类效果。

摘要由CSDN通过智能技术生成

在本章我们将开始使用机器学习模型来解决文本分类。
Datawhale零基础入门NLP赛事 - Task3 基于机器学习的文本分类

文章目录

一、目标

学会TF-IDF的原理和使用
使用sklearn的机器学习模型完成文本分类

二、TF-IDF + RidgeClassifier

//TF-IDF +  RidgeClassifier
import pandas as pd

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import RidgeClassifier
from sklearn.metrics import f1_score

train_df = pd.read_csv('TRAIN_DATA/train_set.csv', sep='\t', nrows=15000)

tfidf = TfidfVectorizer(ngram_range=(1, 3), max_df=