基础入门NLP - 新闻文本分类(二)
数据读取与数据分析1 数据读取2 数据分析2.1 句子长度分析2.2 新闻类别分布2.3 字符分布统计3 数据结论
1 数据读取
前言:本次提供的是新闻文本数据,数据中得每个新闻是不定长的,格式采用csv进行存储,因此可以直接用Pandas完成数据读取的操作。数据获取链接
数据描述:含有训练集20w条样本,具体描述见上一节讲解链接
import pandas as pd #导入
train_df = pd.read_csv(r'D:/data1/train_set.csv', sep='\t',nrows=
原创
2020-07-22 20:43:05 ·
742 阅读 ·
0 评论