自然语言处理（四）：文本预处理之文本数据分析

最新推荐文章于 2024-03-17 21:20:57 发布

GeniusAng丶

最新推荐文章于 2024-03-17 21:20:57 发布

阅读量1.3k

点赞数 1

分类专栏：自然语言处理文章标签：人工智能 pytorch 自然语言处理 python 神经网络

本文链接：https://blog.csdn.net/weixin_45707277/article/details/122290734

版权

自然语言处理专栏收录该内容

31 篇文章 40 订阅

订阅专栏

自然语言处理笔记总目录

文本数据分析能够有效帮助我们理解数据语料, 快速检查出语料可能存在的问题, 并指导之后模型训练过程中一些超参数的选择

常用的几种文本数据分析方法：

标签数量分布
句子长度分布
词频统计与关键词词云

标签数量分布：

import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt

plt.style.use('fivethirtyeight')

train_data = pd.read_csv("./cn_data/train.tsv", sep='\t')
valid_data = pd.read_csv("./cn_data/dev.tsv", sep='\t')

sns.countplot("label", data=train_data)
plt.title("train_data")
plt.gcf().subplots_adjust(bottom=0.12, left=0.15)
plt.show()

sns.countplot("label", data=valid_data)
plt.title("train_data")
plt.gcf().subplots_adjust(bottom=0.12, left=0.13)
plt.show()

训练集标签数量分布：

在这里插入图片描述

在深度学习模型评估中, 我们一般使用ACC作为评估指标, 若想将ACC的基线定义在50%左右, 则需要我们的正负样本比例维持在1:1左右, 否则就要进行必要的数据增强或数据删减. 上图中训练和验证集正负样本都稍有不均衡, 可以进行一些数据增强

句子长度分布：

import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt

plt.style.use('fivethirtyeight')

train_data = pd.read_csv("./cn_data/train.tsv", sep='\t')
valid_data = pd.read_csv("./cn_data/dev.tsv", sep='\t')

train_data["sentence_lenth"] = list(map(lambda x: len(x), train_data["sentence"]))

sns.countplot("sentence_lenth", data=train_data)
plt.xticks([])
plt.subplots_adjust(left=0.1, bottom=0.1)
plt.show()

sns.distplot(train_data["sentence_lenth"])
plt.yticks([])
plt.subplots_adjust(bottom=0.12)
plt.show()

valid_data["sentence_lenth"] = list(map(lambda x: len(x), valid_data["sentence"]))

sns.countplot("sentence_lenth", data=valid_data)
plt.xticks([])
plt.subplots_adjust(left=0.1, bottom=0.1)
plt.show()

sns.distplot(valid_data["sentence_lenth"])
plt.yticks([])
plt.subplots_adjust(bottom=0.12)
plt.show()

训练集句子长度分布：
在这里插入图片描述
验证集句子长度分布：

通过绘制句子长度分布图，可以得知我们的语料中大部分句子长度的分布范围，因为模型的输入要求为固定尺寸的张量，合理的长度范围对之后进行句子截断补齐(规范长度)起到关键的指导作用。上图中大部分句子长度的范围大致为20-250之间

sns.stripplot(y='sentence_lenth', x='label', data=train_data)
plt.subplots_adjust(left=0.16, bottom=0.13)
plt.show()

sns.stripplot(y='sentence_lenth', x='label', data=valid_data)
plt.subplots_adjust(left=0.16, bottom=0.13)
plt.show()

训练集、验证集上正负样本的长度散点分布：
在这里插入图片描述

通过查看正负样本长度散点图，可以有效定位异常点的出现位置，帮助我们更准确进行人工语料审查。上图中在训练集正样本中出现了异常点，它的句子长度近3500左右，需要我们人工审查

获得训练集与验证集不同词汇总数统计：

import pandas as pd
import matplotlib.pyplot as plt
import jieba
from itertools import chain

plt.style.use('fivethirtyeight')

train_data = pd.read_csv("./cn_data/train.tsv", sep='\t')
valid_data = pd.read_csv("./cn_data/dev.tsv", sep='\t')

a = map(lambda x: jieba.lcut(x), train_data["sentence"])

train_vocab = set(chain(*map(lambda x: jieba.lcut(x), train_data["sentence"])))
print("训练集共包含不同词汇的总数为：", len(train_vocab))

vaild_vocab = set(chain(*map(lambda x: jieba.lcut(x), valid_data["sentence"])))
print("验证集共包含不同词汇的总数为：", len(vaild_vocab))

在这里插入图片描述

参考：chain的用法

获得训练集上正负的样本的高频形容词词云：

from itertools import chain
import jieba.posseg as pseg
import matplotlib.pyplot as plt
import pandas as pd
from wordcloud import WordCloud


def get_a_list(text):
    """用于获取形容词列表"""
    r = []
    for g in pseg.lcut(text):
        if g.flag == 'a':
            r.append(g.word)
    return r


def get_word_cloud(keywords_list):
    wordcloud = WordCloud(font_path="./SimHei.ttf", max_words=100, background_color="white")
    keywords_string = " ".join(keywords_list)
    wordcloud.generate(keywords_string)

    plt.figure()
    plt.imshow(wordcloud)
    plt.axis("off")
    plt.show()


train_data = pd.read_csv("./cn_data/train.tsv", sep='\t')
valid_data = pd.read_csv("./cn_data/dev.tsv", sep='\t')

p_train_data = train_data[train_data["label"] == 1]["sentence"]
train_p_a_vocab = chain(*map(lambda x: get_a_list(x), p_train_data))
get_word_cloud(train_p_a_vocab)

n_train_data = train_data[train_data["label"] == 0]["sentence"]
train_n_a_vocab = chain(*map(lambda x: get_a_list(x), n_train_data))
get_word_cloud(train_n_a_vocab)