NLP学习笔记二

最新推荐文章于 2023-07-17 10:22:41 发布

暴走小辉

最新推荐文章于 2023-07-17 10:22:41 发布

阅读量845

点赞数

文章标签：机器学习自然语言处理 nlp

本文链接：https://blog.csdn.net/weixin_46303299/article/details/107523904

版权

NLP学习笔记二

Task 2

Task 2

第二个学习任务，分析数据。
分析目标：
①赛题数据中，新闻文本的长度是多少?
②赛题数据的类别分布是怎么样的，哪些类别比较多?
③赛题数据中，字符分布是怎么样的?

数据的长度分析

因为每个字符都以空格隔离，所以可以直接进行统计。

train_df['text_len'] = train_df['text'].apply(lambda x: len(x.split(' ')))
print(train_df['text_len'].describe())

输出结果：

count     1000.00000
mean       904.30900
std        929.32823
min         21.00000
25%        367.00000
50%        656.00000
75%       1102.50000
max      10018.00000
Name: text_len, dtype: float64

数据解释：
25%那一行表示：有25%的数据在367以下！
以此类推，有50%的文本长度在656以下，有75%的文本长度在1102.5以下.
这个数值可以由describe(percentiles=[.25, .5, .75])进行调整。

结论：
数据文本很长，每个文本平均由907个字符构成，最短的文本长度为2，最长的文本长度为57921。

根据文本长度我们绘制直方图进行观察：

import matplotlib.pyplot as plt
plt.hist(train_df['text_len'], bins=200)
plt.xlabel('Text char count')
plt.title("Histogram of char count")
plt.show()

在这里插入图片描述
由图可得：文本长度集中在0~2000个字符之间。

数据的类别发布

统计训练数据的label分布情况，并画出柱状图。

train_df['label'].value_counts().plot(kind='bar')
plt.title('News class count')
plt.xlabel("category")
plt.show()

在这里插入图片描述
由图可知，数据集的类别发布较为不均匀。训练集中科技类新闻最多，星座类新闻最少。

数据的字符发布

我们将所有文本进行拼接，然后对每个字符进行统计。

from collections import Counter
all_lines = ' '.join(list(train_df['text']))
word_count = Counter(all_lines.split(" "))
word_count = sorted(word_count.items(), key=lambda d:d[1], reverse = True)
print(len(word_count))
print(word_count[0])
print(word_count[-1])