NLP实践之——基于机器学习的文本分类

最新推荐文章于 2024-04-11 10:15:40 发布

zhangxiaolinxin

最新推荐文章于 2024-04-11 10:15:40 发布

阅读量468

点赞数

分类专栏：笔记理论代码文章标签：自然语言处理

本文链接：https://blog.csdn.net/zhangxiaolinxin/article/details/107587986

版权

理论同时被 3 个专栏收录

42 篇文章 1 订阅

订阅专栏

代码

38 篇文章 0 订阅

订阅专栏

笔记

32 篇文章 0 订阅

订阅专栏

一、文本的表示方法
在自然语言领域，文本是不定长的。文本表示成计算机能够运算的数字或向量的方法一般称为词嵌入（Word Embedding）方法。词嵌入将不定长的文本转换到定长的空间内，是文本分类的第一步。
1、One-hot
这里的One-hot与数据挖掘任务中的操作是一致的，即将每一个单词使用一个离散的向量表示。具体将每个字/词编码一个索引，然后根据索引进行赋值。

One-hot表示方法的例子如下：
句子1：我爱北京天安门
句子2：我喜欢上海
构建词典：{我爱北京天安门喜欢上海}，该词典总共包含11个字，因此每个字可以转换为一个11维的向量，只有在该字所在的相应位置为1，其余为0.
如：我：[1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
爱：[0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0]
…
海：[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1]
缺点：构建的词向量为稀疏向量，向量的维度随词典的大小无限扩增。
2、Bag of Words
Bag of Words（词袋表示），也称为Count Vectors，每个文档的字/词可以使用其出现次数来进行表示。
直接统计每个字出现的次数，并进行赋值：
句子1：我爱北京天安门
转换为 [1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0]

句子2：我喜欢上海
转换为 [1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1]

在sklearn中可以直接CountVectorizer来实现这一步骤：

from sklearn.feature_extraction.text import CountVectorizer
corpus = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?',
]
vectorizer = CountVectorizer()
vectorizer.fit_transform(corpus).toarray()

3、N-gram
N-gram与Count Vectors类似，不过加入了相邻单词组合成为新的单词，并进行计数。

如果N取值为2，则句子1和句子2就变为：
句子1：我爱爱北北京京天天安安门
句子2：我喜喜欢欢上上海

4、TF-IDF
TF-IDF 分数由两部分组成：第一部分是词语频率（Term Frequency），第二部分是逆文档频率（Inverse Document Frequency）。其中计算语料库中文档总数除以含有该词语的文档数量，然后再取对数就是逆文档频率。

TF(t)= 该词语在当前文档出现的次数 / 当前文档中词语的总数
IDF(t)= log_e（文档总数 / (出现该词语的文档总数+1）)

二、基于机器学习的文本分类
对比不同文本表示算法的精度，通过本地构建验证集计算F1得分。

Count Vectors + RidgeClassifier

import pandas as pd

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.linear_model import RidgeClassifier
from sklearn.metrics import f1_score

train_df = pd.read_csv('../input/train_set.csv', sep='\t', nrows=15000)

vectorizer = CountVectorizer(max_features=3000)
train_test = vectorizer.fit_transform(train_df['text'])

clf = RidgeClassifier()
clf.fit(train_test[:10000], train_df['label'].values[:10000])

val_pred = clf.predict(train_test[10000:])
print(f1_score(train_df['label'].values[10000:], val_pred, average='macro'))
# 0.74

TF-IDF + RidgeClassifier

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import RidgeClassifier
from sklearn.metrics import f1_score
train_df = pd.read_csv('../input/train_set.csv', sep='\t', nrows=15000)
tfidf = TfidfVectorizer(ngram_range=(1,3), max_features=3000)
train_test = tfidf.fit_transform(train_df['text'])
clf = RidgeClassifier()
clf.fit(train_test[:10000], train_df['label'].values[:10000])
val_pred = clf.predict(train_test[10000:])
print(f1_score(train_df['label'].values[10000:], val_pred, average='macro'))
# 0.87