【爬虫】使用selenium深度爬取豆瓣网

详细举例使用selenium深度爬取豆瓣网

这里举例豆瓣同城 北京最近一周的音乐会活动

在这里插入图片描述在这里插入图片描述

1.使用Edge浏览器作为驱动

driver = webdriver.Edge()

2.指定url发送请求

根据F12得到网站的请求url,请求方法,内容类型

在这里插入图片描述

driver.get()

driver.get("https://beijing.douban.com/events/week-1002")

3.获取每项活动的url

可以发现是一个ul列表内包含多个li标签

在这里插入图片描述

其中href标签就是每项活动的url

在这里插入图片描述

可以根据url进入活动的详细页面

在这里插入图片描述

find_elements()爬取所有li列表数据

 li_list = driver.find_elements(By.XPATH, "//ul[@class='events-list events-list-pic100 events-list-psmall']/li")

遍历li_list通过get_attribute()获得href标签内的url

url_list = [li.find_element(By.XPATH, "div/a").get_attribute("href") for li in li_list]

4.爬取网站元素

对获取到的每项活动的url再次发送请求

遍历url_list对url发送请求
for url in url_list:
    driver.get
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值