Python爬虫实战，pyecharts模块，Python实现豆瓣电影TOP250数据可视化

最新推荐文章于 2024-07-17 21:14:37 发布

小雁子学Python

最新推荐文章于 2024-07-17 21:14:37 发布

阅读量7.1k

点赞数 9

分类专栏： Python技术分享文章标签： Python爬虫 pyecharts 豆瓣电影数据可视化模块

本文链接：https://blog.csdn.net/weixin_43649691/article/details/121656625

版权

本文通过Python爬虫获取并使用pyecharts模块对豆瓣电影TOP250数据进行可视化，涵盖了电影上映年份、中外电影对比、评分分布等多方面分析。

摘要由CSDN通过智能技术生成

前言

利用Python实现豆瓣电影TOP250数据可视化。废话不多说。

让我们愉快地开始吧~

开发工具

Python版本： 3.6.4

相关模块：

pandas模块

pyecharts模块；

以及一些Python自带的模块。

环境搭建

安装Python并添加到环境变量，pip安装需要的相关模块即可。

Scrapy框架

之前了解了pyspider框架的使用，但是就它而言，只能应用于一些简单的爬取。

对于反爬程度高的网站，它就显得力不从心。

那么就轮到Scrapy上场了，目前Python中使用最广泛的爬虫框架。

当然目前我学习的都是简单爬虫，上述内容都是道听途说，并不是切身体会。

Scrapy的安装相对复杂，依赖的库较多。

不过通过度娘，最后我是成功安装了的。放在C盘，如今我的C盘要爆炸。

首先任意文件夹下命令行运行scrapy startproject doubanTop250，创建一个名为doubanTop250的文件夹。

然后在文件夹下的py文件中改写程序。

进入文件夹里，命令行运行scrapy genspider douban movie.douban.com/top250。

最后会生成一个douban.py文件，Scrapy用它来从网页里抓取内容，并解析抓取结果。

最终修改程序如下。

import scrapy
from scrapy import Spider
from doubanTop250.items import Doubantop250Item


class DoubanSpider(scrapy.Spider):
    name = 'douban'
    allowed_domains = ['douban.com']
    start_urls = ['https://movie.douban.com/top250/']

    def parse(self, response):
        lis