Python爬虫框架：scrapy爬取迅雷电影天堂最新电影！

最新推荐文章于 2024-05-15 13:41:14 发布

爬遍天下无敌手

最新推荐文章于 2024-05-15 13:41:14 发布

阅读量5.7k

点赞数

分类专栏： Python 文章标签： python linux java django 大数据

本文链接：https://blog.csdn.net/weixin_43881394/article/details/108344740

版权

项目开始

第一步仍然是创建scrapy项目与spider文件

切换到工作目录两条命令依次输入

scrapy startproject xunleidianying
scrapy genspider xunleiBT https://www.xl720.com/thunder/years/2019

内容分析

打开目标网站（分类是2019年上映的电影），分析我们需要的数据

进入页面是列表的形式就像豆瓣电影一样，然后我们点进去具体页面看看

这个页面就是我们需要拿到的内容页面，我们来看我们需要哪些数据(某些数据从第一个页面就可以获得，但是下载地址必须到第二个页面)

分析完成之后就可以首先编写 items.py文件

另外别忘了去settings.py中开启 ITEM_PIPELINES 选项

爬虫文件编写

老样子，为了方便测试我们的爬虫，首先编写一个main.py的文件方便IDE调用

main.py：

import scrapy.cmdli

关注

专栏目录