针对豆瓣TOP前250电影做的简单的数据分析~

最新推荐文章于 2024-06-30 16:15:25 发布

qq1365766249

最新推荐文章于 2024-06-30 16:15:25 发布

阅读量1.9k

点赞数

文章标签：数据分析 python 大数据

本文链接：https://blog.csdn.net/weixin_45630006/article/details/106148459

版权

·~~~~~~内容参考如下使用python抓取豆瓣top250电影数据进行分析 - 简书
https://www.jianshu.com/p/720b193a5c2b

#导入库，三大常用数据分析库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib

#读取保存本地的excel文件，我的存放地址就是当前文件夹打印出来
a = pd.read_excel(r'豆瓣电影top250.xls')
#设置每行内容太多，不换行，方便
pd.set_option('expand_frame_repr', False)
#输出查看使用a.head()进行，我这边head函数失效，不知道什么原因，下面统一用print打印出来。
print(a)

在这里插入图片描述
右边还有好多内容放不下。。。。。

#查看数据基本信息
a.info()
#查看是否有重复电影
a.duplicated().value_counts()
print(a)
#检查是否有重名电影
len(a.电影名.unique())
#筛选电影的国家或地区，有多个国家或地区时，按顺序并列
country = a['国家'].str.split(' ').apply(pd.Series)
print(country)

在这里插入图片描述
这是显示的数据类型

#将空值 NaN 替换为“0”，再按行汇总
all_country = country.apply(pd.value_counts).fillna('0')
all_country.columns = ['area1','area2','area3','a

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qq1365766249

关注关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

豆瓣电影TOP250数据分析

weixin_44657010的博客

02-21

9132

本文使用的语言为Python, 用到的几个模块有：BeautifulSoup（爬数据），pandas（数据处理），seaborn（可视化），部分图表由Tableau生成。 1. 数据获取计划要抓取的字段包括：片名，导演，年份，国别，评分，评价数量，看过数量，想看数量，短评数量，长评数量。需要抓取的影片信息有250条，每页25部影片，一共有10页。简单浏览网页不难发现，翻页的链接不需要从页面底...

豆瓣top250电影数据分析

lucky_0123的博客

01-08

1万+

分析背景及目的豆瓣电影 Top 250定义：豆瓣用户每天都在对“看过”的电影进行“很差”到“力荐”的评价，豆瓣根据每部影片看过的人数以及该影片所得的评价等综合数据，通过算法分析产生豆瓣电影 Top 250。本文对于"好评电影"（豆瓣电影top250）的影片评分，上映时间，评论人数，制作国家，电影类型，影片描述进行分析，期望为渴望寻找优秀影片的观影者以及电影制片方对电影的选择提供若干参考建议。数据可视化分析 ** 1.电影评分分析** 好评电影评分主要集中在8.5-9.5分，9分以上电影相对少一

参与评论您还未登录，请先登录后发表或查看评论

django基于Hadoop的豆瓣Top250排行榜影片数据分析与处理3g55u1zc

最新发布

qq_1262330535的博客

06-30

598

本研究利用Hadoop大数据处理框架，对豆瓣Top250排行榜影片数据进行了深入分析。通过分析影片评分、评论人数、导演情况、电影类型以及电影描述等多个维度，揭示了好评电影的共同特征和趋势。研究发现，好评电影评分主要集中在8.5-9.5分之间，且评论人数多在10万至70万之间，显示出广泛的受众基础和较高的观众参与度。此外，多位导演有多部作品上榜，其中宫崎骏和克里斯托弗·诺兰的作品尤为突出，这体现了导演在电影制作中的核心作用。

基于python抓取豆瓣电影TOP250的数据及进行分析.pdf

06-29

基于python抓取豆瓣电影TOP250的数据及进行分析.pdf

数据分析实战3---豆瓣top250数据分析和可视化

2301_77067398的博客

06-03

1516

7 电影上映年份分布（1980-1990；1991-2000；2001-2010；2011-2020；2021-2030）2 电影榜单TOP10 - Funnel(漏斗)3 电影评价人数前二十 - bar(水平)1. 各年份上映电影数量 - bar。首先，导入模块和读取csv数据。4.各地区的电影数量。

豆瓣电影TOP250分析报告文本挖掘.docx

03-05

摘要：本文爬取豆瓣电影TOP250的榜单电影信息和热评，运用数据可视化和文本挖掘的相关方法和理论对电影进行Knn分类和KMeans聚类以及相关的电影信息分析，并预测了新上映电影的所属类型,画出了相应的混淆矩阵

豆瓣电影top250爬虫

02-24

"豆瓣电影top250爬虫"项目是一个专门针对豆瓣网站上电影Top250排行榜的数据抓取程序。这个爬虫的独特之处在于，它没有依赖像BeautifulSoup这样的成熟的HTML解析库，而是采用了纯字符串搜索的方式来解析网页内容，这...

豆瓣电影数据分析可视化.docx

06-13

本项目主要针对豆瓣电影网站上的电影数据进行抓取、清洗及可视化分析。整个过程分为以下几个步骤：数据抓取（使用Python进行网页爬虫）、数据清洗（利用Hive进行数据处理）、以及数据可视化。 #### Python爬虫实现 ...

Python数据可视化分析大作业-豆瓣电影Top250数据分析与可视化（源码 + 文档 + PPT）

05-19

在本项目中，我们主要探讨了如何利用Python进行数据可视化分析，具体针对的是豆瓣电影Top250的数据。这个大作业涵盖了数据预处理、数据清洗、数据分析和数据可视化等多个关键步骤，提供了丰富的可视化图表，同时附带...

豆瓣电影top250电影即影评.zip

11-21

在这个案例中，所使用的爬虫技术是针对豆瓣电影网站的，目标是抓取Top250电影的相关数据，包括电影的基本信息（如电影名、导演、主演、年份、评分等）以及用户对电影的评论内容。接着，我们来看看压缩包内的...

【Python】豆瓣电影TOP250数据规律分析（Pearson相关系数、折线图、条形图、直方图）

12-21

1、数据集预览原创文章 113获赞 137访问量 7万+ 关注私信展开阅读全文作者：Vivid-victory

python爬虫豆瓣电影TOP250,以及数据化分析

01-20

python爬虫豆瓣电影TOP250,以及数据化分析

数据分析与挖掘案例之使用python抓取豆瓣top250电影数据进行分析-附件资源

03-05

数据分析与挖掘案例之使用python抓取豆瓣top250电影数据进行分析-附件资源

豆瓣Top 250电影数据挖掘及评分预测.pdf

07-14

豆瓣Top 250电影数据挖掘及评分预测.pdf

python爬虫数据可视化豆瓣评分top250_Python数据可视化：豆瓣电影TOP250

weixin_39710561的博客

12-16

1323

原标题：Python数据可视化：豆瓣电影TOP250源 /法纳斯特文 /小F本文转载自「法纳斯特」搜索「walker398」即可关注豆瓣电影TOP250，对于众多爬虫爱好者，应该并不陌生。很多人都会以此作为第一个练手的小项目。当然这也多亏了豆瓣的包容，没有加以太多的反爬措施，对新手比较友好。本期通过Scrapy框架，对豆瓣电影TOP250信息进行爬取。同时对获取的数据进行可视化分析，给大家带来一个...

爬取豆瓣电影Top250和数据分析