三十而已 豆瓣短评分析

三十而已 豆瓣短评分析

数据读入
In [1]:

导入所需包

import numpy as np
import pandas as pd
import re
import jieba

from pyecharts.charts import Pie, Bar, Map, Line, Page
from pyecharts import options as opts

In [2]:

读入数据

df = pd.read_excel(’…/data/三十而已豆瓣短评7.22.xlsx’)
print(df.shape)
print(df.info())

(500, 6)
<class ‘pandas.core.frame.DataFrame’>
RangeIndex: 500 entries, 0 to 499
Data columns (total 6 columns):

Column Non-Null Count Dtype


0 user_name 499 non-null object
1 page_url 500 non-null object
2 rating_num 500 non-null object
3 comment_time 500 non-null object
4 short_comment 500 non-null object
5 votes_num 500 non-null int64
dtypes: int64(1), object(5)
memory usage: 23.6+ KB
None
In [3]:

删除列

df = df.drop([‘comment_time’, ‘page_url’, ‘votes_num’], axis=1)
df.head()

Out[3]:

user_name
rating_num
short_comment
0
蓝抑郁剂 Lily
推荐
葱油饼那一段太治愈了,女人卖饼,儿子陪着妈妈,男人跑外卖,工作途中还给儿子带礼物,从清早到黑…
1
红泥小火炉
推荐
当背着买菜包大姐说我要订一套最贵钻石的时候,我和王漫妮一样脸上写满了惊讶,是的,不管年龄多大…
2
黑色星期五
推荐
30+女性的定制剧,应该多拍点这样的剧,女性不仅要展现母性光辉,更要活出自我。
3
NaN
推荐
比隔壁二十岁油腻的妹妹们强太多了
4
皇甫铁牛
推荐
王漫妮在其他柜姐不屑于服务一个衣着朴素的阿姨的时候承担起了服务她的工作,没想到最后那个阿姨定…
In [4]:

处理空值

df.fillna(‘无’, inplace=True)

In [5]:

查看重复值和空值

print(df.duplicated().sum())
print(df.isnull().sum())

0
user_name 0
rating_num 0
short_comment 0
dtype: int64

数据预处理
In [6]:

字段扩充

def comment_label(x):
if x == ‘力荐’ or x == ‘推荐’:
return ‘好评’
elif x == ‘还行’:
return ‘一般’
else:
return ‘差评’

df[‘comment_label’] = df[‘rating_num’].map(comment_label)
df.comment_label.value_counts()

Out[6]:
差评 249
好评 169<

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值