NLP实践之——数据读取与分析

原创

于 2020-07-22 23:35:48 发布 · 676 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理

一、数据读取

import pandas as pd
train_df=pd.read_csv('D:/AIproject/NLP_news_paper_classific/data/train_set.csv/train_set.csv',sep='\t',nrows=100)

train_df.head()

在这里插入图片描述
二、数据分析
数据分析的目的：
（1）获得赛题数据中新闻文本的长度
（2）获得赛题数据类别分类的分布
（3）获得赛题数据字符的分布
1、句子长度分析
观察前5行数据可知每行句子中的字符用空格隔开，可通过统计单词个数来计算每个句子长度。

%pylab inline
train_df['text_len'] = train_df['text'].apply(lambda x: len(x.split(' ')))
print(train_df['text_len'].describe())

在这里插入图片描述
绘制句子长度直方图

plt.hist(train_df['text_len'], bins=200)
plt.xlabel('Text char count')
plt.title("Histogram of char count")

最低0.47元/天解锁文章

200万优质内容无限畅学

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值