python爬虫——用Scrapy框架爬取阳光电影的所有电影

最新推荐文章于 2024-03-05 18:14:12 发布

清风化煞_

最新推荐文章于 2024-03-05 18:14:12 发布

阅读量2.8k

点赞数 4

分类专栏： python爬虫文章标签： python爬虫 scrapy框架阳光电影

本文链接：https://blog.csdn.net/weixin_45019310/article/details/90807483

版权

python爬虫——用Scrapy框架爬取阳光电影的所有电影

1.附上效果图
在这里插入图片描述

2.阳光电影网址http://www.ygdy8.net/index.html
3.先写好开始的网址

	name = 'ygdy8'
    allowed_domains = ['ygdy8.net']
    start_urls = ['http://www.ygdy8.net/index.html']

4.再写采集规则

	#采集规则的集合
    rules = (
        #具体实现的采集规则
        #采集导航页中电影的部分 allow是选择出所有带有index的网址 allow是正则表达式 只要写你想提取的链接的一部分就可以了
        #deny是去掉游戏那一栏
        Rule(LinkExtractor(allow=r'index.html', deny='game')),
        # follow=True 下一次提取网页中如果包含我们需要提取的信息是否还要继续提取
        Rule(LinkExtractor(allow=r'list_\d+_\d+.html'),follow=True),
        #allow里面提取详情页信息
        #callback回调函数将相应交给谁处理
        Rule(LinkExtractor(allow=r'/\d+/\d+.html'),callback='parse_item',follow=False),
    )

第一个规则是从导航栏那里匹配,匹配除了游戏的其他导航栏

#采集导航页中电影的部分 allow是选择出所有带有index的网址 allow是正则表达式 只要写你想提取的链接的一部分就可以了
#deny是去掉游戏那一栏
Rule(LinkExtractor(allow=r'index.html', deny='game')),

在这里插入图片描述

在这里插入图片描述
第二个规则是匹配导航栏下每一页的信息，都是由list下划

最低0.47元/天解锁文章