基于python的scrapy框架爬取豆瓣电影及其可视化

最新推荐文章于 2024-08-13 17:30:00 发布

程序员阿城

最新推荐文章于 2024-08-13 17:30:00 发布

阅读量3.9k

点赞数 2

分类专栏： python 文章标签：互联网程序员 python

本文链接：https://blog.csdn.net/zhoulei124/article/details/89417442

版权

本文介绍了如何使用Python的Scrapy框架抓取豆瓣电影信息，并进行了数据可视化分析。通过Scrapy框架创建爬虫，提取电影的属性如国家、年份和类别，然后利用xpathHelper插件辅助解析。数据保存为json文件后，使用pandas进行数据清洗，分析发现美国电影在豆瓣TOP250中占比最高，新电影更受欢迎，剧情片更受青睐。最后提到了数据可视化的建议，推荐使用Echarts或BI工具来美化图表。

摘要由CSDN通过智能技术生成

1.Scrapy框架介绍

scrapy

主要介绍，spiders，engine，scheduler,downloader,Item pipeline

scrapy常见命令如下：

对应在scrapy文件中有，自己增加爬虫文件，系统生成items,pipelines,setting的配置文件就这些。

items写需要爬取的属性名，pipelines写一些数据流操作，写入文件，还是导入数据库中。主要爬虫文件写domain，属性名的xpath，在每页添加属性对应的信息等。

如果有想学习python的程序员，可来我的python学习扣qun：835017344，免费送python的视频教程噢！我每晚上8点还会在群内直播讲解python知识，欢迎大家前来学习交流。

movieRank = scrapy.Field()
    movieName = scrapy.Field()
    Director = scrapy.Field()
    movieDesc = scrapy.Field()
    movieRate = scrapy.Field()
    peopleCount = scrapy.Field()
    movieDate = scrapy.Field()
    movieCountry = scrapy.Field()
    movieCategory = scrapy.Field()
    moviePost = scrapy.Field()

import json

class DoubanPipeline(object):
    def __init__(self):
        self.f = open("douban.json","w",encoding='utf-8')

    def proces

最低0.47元/天解锁文章

程序员阿城

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录