【NLP学习笔记】3-基于机器学习的文本分类

最新推荐文章于 2024-04-27 11:00:21 发布

weixin_43871061

最新推荐文章于 2024-04-27 11:00:21 发布

阅读量219

点赞数

本文链接：https://blog.csdn.net/weixin_43871061/article/details/107584873

版权

数据读取和分析

Introduction

这次的训练主要是利用机器学习完成文本分类，常见的机器学习分类方法有svm支持向量机、随机森林、决策树算法。本节内容主要完成下列两个目标：

TF-IDF的原理和使用
使用sklearn的机器学习模型完成文本分类

Task

1、文本表示方法（one hot/词袋/tf-idf/n-grams）

词嵌入：词嵌入将不定长的文本转换到定长的空间内，从而转化文本。
One-hot ：将每一个单词使用一个离散的向量表示。具体将每个字/词编码一个索引，然后根据索引进行赋值。如

#1
句子1：我 爱 北 京 天 安 门
句子2：我 喜 欢 上 海

#2
{'我': 1, '爱': 2, '北': 3, '京': 4, '天': 5,'安': 6, '门': 7, '喜': 8, '欢': 9, '上': 10, '海': 11}

#3
对11个字符转化为一个11维度的向量（sparse vector）
我：[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
爱：[0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0]
...
海：[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1]

词袋：也称为Count Vectors，每个文档的字/词可以使用其出现次数来进行表示。

#1
句子1：我 爱 北 京 天 安 门
转换为 [1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0]
这里比如只统计句子1前7个字符
#2
句子2：我 喜 欢 上 海
转换为 [1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1]
这里比如只统计句子2后4个字符+句子1第1个字符
#3
依然是转化为11维的向量

上述实现可由下：

from sklearn.feature_extraction.text import CountVectorizer
corpus = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?',
]
vectorizer = CountVectorizer()
vectorizer.fit_transform(corpus).toarray()

N-gram：N-gram与Count Vectors类似，不过加入了相邻单词组合成为新的单词，并进行计数。

句子1：我爱 爱北 北京 京天 天安 安门
句子2：我喜 喜欢 欢上 上海

*TF-IDF 这个就是由语料词库和文档词库中和选取的tf-idf值比较高的词汇。其中计算语料库中文档总数除以含有该词语的文档数量，然后再取对数就是逆文档频率。

2、基于机器学习的文本分类（RidgeClassifier）

实现：利用RidgeClassifier

Count Vectors + RidgeClassifier

import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import RidgeClassifier
from sklearn.metrics import f1_score

dir = "/Users/titan/Desktop/dict/"
file_desc = "".join([dir, "train_set.csv.csv"]) 
train_df = pd.read_csv('file_desc', sep='\t', nrows=15000) #读取15000行数据
vectorizer = CountVectorizer(max_features=3000)
train_test = vectorizer.fit_transform(train_df['text'])

clf = RidgeClassifier()
clf.fit(train_test[:10000], train_df['label'].values[:10000])

val_pred = clf.predict(train_test[10000:])
print(f1_score(train_df['label'].values[10000:], val_pred, average='macro'))
# 0.74

TF-IDF + RidgeClassifier

import pandas as pd

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import RidgeClassifier
from sklearn.metrics import f1_score

dir = "/Users/titan/Desktop/dict/"
file_desc = "".join([dir, "train_set.csv.csv"]) 
train_df = pd.read_csv('file_desc', sep='\t', nrows=15000) 
tfidf = TfidfVectorizer(ngram_range=(1,3), max_features=3000)
train_test = tfidf.fit_transform(train_df['text'])

clf = RidgeClassifier()
clf.fit(train_test[:10000], train_df['label'].values[:10000])

val_pred = clf.predict(train_test[10000:])#测试
print(f1_score(train_df['label'].values[10000:], val_pred, average='macro'))
# 0.87