详细举例使用selenium深度爬取豆瓣网
这里举例豆瓣同城 北京最近一周的音乐会活动


1.使用Edge浏览器作为驱动
driver = webdriver.Edge()
2.指定url发送请求
根据F12得到网站的请求url,请求方法,内容类型

driver.get()
driver.get("https://beijing.douban.com/events/week-1002")
3.获取每项活动的url
可以发现是一个ul列表内包含多个li标签

其中href标签就是每项活动的url

可以根据url进入活动的详细页面

find_elements()爬取所有li列表数据
li_list = driver.find_elements(By.XPATH, "//ul[@class='events-list events-list-pic100 events-list-psmall']/li")
遍历li_list通过get_attribute()获得href标签内的url
url_list = [li.find_element(By.XPATH, "div/a").get_attribute("href") for li in li_list]
4.爬取网站元素
对获取到的每项活动的url再次发送请求
遍历url_list对url发送请求
for url in url_list:
driver.get