三十而已 豆瓣短评分析
数据读入
In [1]:
导入所需包
import numpy as np
import pandas as pd
import re
import jieba
from pyecharts.charts import Pie, Bar, Map, Line, Page
from pyecharts import options as opts
In [2]:
读入数据
df = pd.read_excel(’…/data/三十而已豆瓣短评7.22.xlsx’)
print(df.shape)
print(df.info())
(500, 6)
<class ‘pandas.core.frame.DataFrame’>
RangeIndex: 500 entries, 0 to 499
Data columns (total 6 columns):
Column Non-Null Count Dtype
0 user_name 499 non-null object
1 page_url 500 non-null object
2 rating_num 500 non-null object
3 comment_time 500 non-null object
4 short_comment 500 non-null object
5 votes_num 500 non-null int64
dtypes: int64(1), object(5)
memory usage: 23.6+ KB
None
In [3]:
删除列
df = df.drop([‘comment_time’, ‘page_url’, ‘votes_num’], axis=1)
df.head()
Out[3]:
user_name
rating_num
short_comment
0
蓝抑郁剂 Lily
推荐
葱油饼那一段太治愈了,女人卖饼,儿子陪着妈妈,男人跑外卖,工作途中还给儿子带礼物,从清早到黑…
1
红泥小火炉
推荐
当背着买菜包大姐说我要订一套最贵钻石的时候,我和王漫妮一样脸上写满了惊讶,是的,不管年龄多大…
2
黑色星期五
推荐
30+女性的定制剧,应该多拍点这样的剧,女性不仅要展现母性光辉,更要活出自我。
3
NaN
推荐
比隔壁二十岁油腻的妹妹们强太多了
4
皇甫铁牛
推荐
王漫妮在其他柜姐不屑于服务一个衣着朴素的阿姨的时候承担起了服务她的工作,没想到最后那个阿姨定…
In [4]:
处理空值
df.fillna(‘无’, inplace=True)
In [5]:
查看重复值和空值
print(df.duplicated().sum())
print(df.isnull().sum())
0
user_name 0
rating_num 0
short_comment 0
dtype: int64
数据预处理
In [6]:
字段扩充
def comment_label(x):
if x == ‘力荐’ or x == ‘推荐’:
return ‘好评’
elif x == ‘还行’:
return ‘一般’
else:
return ‘差评’
df[‘comment_label’] = df[‘rating_num’].map(comment_label)
df.comment_label.value_counts()
Out[6]:
差评 249
好评 169<