流浪地球热门影评数据分析

该博客通过分析《流浪地球》的评论数据,揭示了评论用户主要来自北京、上海等沿海城市,评分以3、4、5分居多,整体评价正面。使用词云图和Tableau仪表盘展示评论情感,尽管剧情有争议,但作为国产科幻电影受到支持。
摘要由CSDN通过智能技术生成

既然已经获取到了数据,下面就可以开始进行数据分析了

(数据爬取的文章在这里https://blog.csdn.net/weixin_44508906/article/details/87904982

首先要理清一下分析思路

  • 无论做什么分析,最先做的肯定是数据处理,将数据处理成我们想要的格式并进行数据清洗
  • 观察数据,进行统计性描述(这里只有一个score,且数据量过小,就略过了),确立分析指标
  • 进行分析
  • 得出结论,撰写报告

下面是这次分析的具体步骤

1、读取数据并简单处理数据

comments.csv 评论数据

cities.csv 评论用户居住城市

import pandas as pd
import matplotlib.pyplot as plt
import jieba
import re
import warnings
from pyecharts import Style, Geo, Map, Line, Pie
from chinese_province_city_area_mapper.transformer import CPCATransformer
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
from snownlp import SnowNLP

# 读取数据
df1 = pd.read_csv('comments.csv', names=['name', 'score', 'comment', 'date', 'href'])
df2 = pd.read_csv('cities.csv', names=['city'])
df = pd.merge(df1, df2, left_index=True, right_index=True, how='outer') # 根据索引合并数据

df.drop('href', axis=1, inplace=True) # 去掉href列
df.drop_duplicates(subset=None, keep='first', inplace=True) # 去重(这里没有重复值)
df.dropna(axis=0) # 删除空值 (这里没有空值)

# 去掉comment的span标签
def comment_process(comment):
    comment = comment.strip('<span class="short">').strip('</span>').replace('\n', '').replace('\r', '')
    p = re.compile('[^\u4e00-\u9fa5]')  # 中文编码范围\u4e00到\u9fa5
    comment = re.sub(p,'',comment)
    return comment

df['comment'] = df['comment'].apply(comment_process) # 使用apply比循环要快

# 评分转换数字
df['score1'] = df['score']
df['score'] = df['score'].map({
    '力荐': 5,
    '推荐': 4,
    '还行': 3,
    '较差': 2,
    '很差': 1
})
df['date'] = pd.to_datetime(df['date']).dt.strftime('%Y-%m-%d')  # 将datetime字段由object转换成datetime类型,速度回快很多

处理后的结果

评论 17
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值