基于python的scrapy框架爬取豆瓣电影及其可视化

本文介绍了如何使用Python的Scrapy框架抓取豆瓣电影信息,并进行了数据可视化分析。通过Scrapy框架创建爬虫,提取电影的属性如国家、年份和类别,然后利用xpathHelper插件辅助解析。数据保存为json文件后,使用pandas进行数据清洗,分析发现美国电影在豆瓣TOP250中占比最高,新电影更受欢迎,剧情片更受青睐。最后提到了数据可视化的建议,推荐使用Echarts或BI工具来美化图表。
摘要由CSDN通过智能技术生成

1.Scrapy框架介绍

scrapy

主要介绍,spiders,engine,scheduler,downloader,Item pipeline

scrapy常见命令如下:

 

对应在scrapy文件中有,自己增加爬虫文件,系统生成items,pipelines,setting的配置文件就这些。

items写需要爬取的属性名,pipelines写一些数据流操作,写入文件,还是导入数据库中。主要爬虫文件写domain,属性名的xpath,在每页添加属性对应的信息等。

如果有想学习python的程序员,可来我的python学习扣qun:835017344,免费送python的视频教程噢!我每晚上8点还会在群内直播讲解python知识,欢迎大家前来学习交流。

movieRank = scrapy.Field()
    movieName = scrapy.Field()
    Director = scrapy.Field()
    movieDesc = scrapy.Field()
    movieRate = scrapy.Field()
    peopleCount = scrapy.Field()
    movieDate = scrapy.Field()
    movieCountry = scrapy.Field()
    movieCategory = scrapy.Field()
    moviePost = scrapy.Field()
import json

class DoubanPipeline(object):
    def __init__(self):
        self.f = open("douban.json","w",encoding='utf-8')

    def proces
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值