爬取豆瓣电影排行榜，并制作柱状图与3d柱状图_不同导演的电影平均评分柱状图-CSDN博客

本文链接：https://blog.csdn.net/weixin_44415775/article/details/100024680

**爬取豆瓣电影排行榜，并简单制作柱状图
一、首先，我们需要获取页面的信息，下图是从排行第25到50的电影，由此可见start可以想象为偏移量，我们把start的值换为0，得到了第一到25排名的电影，我们可以用修改start值的方式获取所需的url 在这里插入图片描述
import requests
from scrapy import Selector
import time
import pandas as pd
import matplotlib as plt
dic = []
for i in range(0,10):
url = ‘https://movie.douban.com/top250?start={}&filter=’.format(i*25)
dic.append(url)

/遍历所需的页面url

headers = {
‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36’,
‘Host’: ‘movie.douban.com’
}
二、我们所需要的信息是电影的名称，电影的评分，评论人数，以及电影的简介，我们需要定位到所需元素的位置，进行爬取
如图的元素就很亲民！需要的数据都在一个grid_view的li里，很方便我们获取啦！
在这里插入图片描述

def douban1(url):
response = requests.get(url=url,headers=headers)
select = Selector(text=response.text)
data = select.css(’.grid_view li’)
print(data)
listda = []
for i in data:
dict = {}
dict[‘电影名称’] = “”.join(i.css(’.hd a .title’)[0].css(’::text’).extract())
dict[‘评分人数’] = “”.join(i.css(’.bd .star span’)[3].css(’::text’).extract())
dict[‘评分’] = “”.join(i.css(’.bd .star span’)[1].css(’::text’).extract())
dict[‘简介’] = “”.join(i.css(’.inq ::text’).extract())
listda.append(dict)
time.sleep(3)

#设置等待时长
return listda
//对所需要的数据进行爬取

data_lst = []
n = 1
for j in dic:
data_lst.extend(douban1(j))
print(‘成功采集{}条数据’.format(n*25))
n += 1
在这里插入图片描述
pandas是数据分析常用的数据处理的手段，可以轻松的实现数据清洗，存入excel，等数据处理方式。pandas有很多种实用的方法，以下试用几种简单操作

df_result = pd.DataFrame(data_lst)
print(df_result)
在这里插入图片描述
df_result.to_excel(r’doubandianying.xlsx’,encoding=‘utf-8’)#导入到excel文件
df_result[‘评分’].astype(‘float’)#将评分一列数据的类型改为float
print(df_result[‘评分’].astype(‘float’))
d1 = df_result.head(10) **#查看数据的前十行
在这里插入图片描述
print(d1)
b = df_result.sort_values(by=“评分” , ascending=False) #排序
print(b)

三、画柱状图
from pylab import *
#设置字体，不舍之中文会出不来
mpl.rcParams[‘font.sans-serif’] = [‘SimHei’]
#图片大小长12宽5
plt.figure(figsize=(12,5))
#标题
plt.title(“电影与其评分”)
plt.bar(d1[‘电影名称’],d1[‘评分’])
plt.show()
在这里插入图片描述
四、画3d柱状图
from pyecharts import options as opts
from pyecharts.charts import Bar3D
x_name = list(set(d1.iloc[:, 0]))
y_name = list(set(d1.iloc[:, 2]))
data_xyz=[]
def bar3d_base() -> Bar3D:
for i in range(10):
x = d1.iloc[i, 0]
y = d1.iloc[i, 2]
z = d1.iloc[i, 3]
data_xyz.append([x, y, z])
c = (
Bar3D()
.add(
“”,
[[d[2], d[0], d[1]] for d in data_xyz],
xaxis3d_opts=opts.Axis3DOpts(d1[‘评分’], type_=“category”),
yaxis3d_opts=opts.Axis3DOpts(d1[‘电影名称’], type_=“category”),
zaxis3d_opts=opts.Axis3DOpts(),
)
.set_global_opts(
visualmap_opts=opts.VisualMapOpts(max_=20),
title_opts=opts.TitleOpts(title=“电影评分电影评价人数与电影评分之间的关系”),
)
)
print(data_xyz)
return c.render(“line.html”)
bar3d_base()
在这里插入图片描述
当然，无论是matplotlib还是pyecharts都有很多实用小细节可以增添，包括上面的代码主要是为了举个例子，还能有很大的改进空间，大噶一起努力哈！我觉得这个杀手不太冷里的小女孩挺可爱的哈哈哈哈！