selenium在scrapy中的使用

最新推荐文章于 2024-06-15 22:48:09 发布

小黑班♪(･ω･)ﾉ

最新推荐文章于 2024-06-15 22:48:09 发布

阅读量465

点赞数

分类专栏： scrapy

本文链接：https://blog.csdn.net/weixin_49487589/article/details/117228393

版权

本文介绍了如何在Scrapy项目中结合selenium爬取动态加载的内容，以网易新闻的四个版块（国内、国际、军事、航空）为例，通过展示代码和效果，阐述了selenium的实例化和关闭方法，以及在settings中配置相关参数的细节。

摘要由CSDN通过智能技术生成

使用目的

爬取网易新闻国内、国际、军事、航空4个版块的新闻。在测试中发现各版块的新闻是动态加载的，如果直接爬取无法获取，使用selenium帮助获取此部分数据。

代码

spider

import scrapy
from selenium import webdriver
from wangyiPro.items import WangyiproItem

class WangyiSpider(scrapy.Spider):
    name = 'wangyi'
    # allowed_domains = ['www.xxx.com']
    start_urls = ['https://news.163.com/']
    model_url = []

   
    hro = webdriver.Chrome()

    def parse(self, response):
    # 从所有版块中筛选出所需要下载的4个版块
        li_list = response.xpath('/html/body/div[1]/div[1]/div[2]/div[2]/div[2]/div[2]/div/ul/li')
        indexs = [3,4,6,7]
        for index in indexs

最低0.47元/天解锁文章

小黑班♪(･ω･)ﾉ

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
selenium在scrapy中的使用

使用目的爬取网易新闻国内、国际、军事、航空4个版块的新闻。在测试中发现各版块的新闻是动态加载的，如果直接爬取无法获取，使用selenium帮助获取此部分数据。代码spiderimport scrapyfrom selenium import webdriverfrom wangyiPro.items import WangyiproItemclass WangyiSpider(scrapy.Spider): name = 'wangyi' # allowed_domains
复制链接

扫一扫

专栏目录