【爬虫】使用selenium深度爬取豆瓣网

最新推荐文章于 2025-04-06 18:17:06 发布

大数据·流浪法师

最新推荐文章于 2025-04-06 18:17:06 发布

阅读量724

点赞数 6

文章标签：爬虫 selenium 测试工具

本文链接：https://blog.csdn.net/weixin_49184448/article/details/134605200

版权

详细举例使用selenium深度爬取豆瓣网

这里举例豆瓣同城北京最近一周的音乐会活动

在这里插入图片描述

1.使用Edge浏览器作为驱动

driver = webdriver.Edge()

2.指定url发送请求

根据F12得到网站的请求url，请求方法，内容类型

在这里插入图片描述

driver.get()

driver.get("https://beijing.douban.com/events/week-1002")

3.获取每项活动的url

可以发现是一个ul列表内包含多个li标签

在这里插入图片描述

其中href标签就是每项活动的url

在这里插入图片描述

可以根据url进入活动的详细页面

在这里插入图片描述

find_elements()爬取所有li列表数据

 li_list = driver.find_elements(By.XPATH, "//ul[@class='events-list events-list-pic100 events-list-psmall']/li")

遍历li_list通过get_attribute()获得href标签内的url

url_list = [li.find_element(By.XPATH, "div/a").get_attribute("href") for li in li_list]

4.爬取网站元素

对获取到的每项活动的url再次发送请求

遍历url_list对url发送请求

for url in url_list:
    driver.get

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

大数据·流浪法师

关注关注

6
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

selenium爬取豆瓣电影和电视剧

qq_55048096的博客

01-08

1295

selenium爬取豆瓣电影和电视剧

爬虫小项目（二）利用selenium爬取豆瓣电影

huangguangyourena的博客

02-09

2781

这次依旧是利用selenium来进行爬虫，虽然selenium是用来对付动态网页的，而且豆瓣电影并没有存在需要不断往下拉滚动条然后才会出现新内容的情况存在，不过我们还是选择selenium，毕竟我是刚学，还需要多用一用。具体方法是跟第一个爬取淘宝的小项目是很像的，但第一个小项目我是一边看一边模仿的，今天这个豆瓣电影的爬虫是根据理解来写的，大概这也算是一种小小的进步吧。那么下面贴上源代码：# -*-...

1 条评论您还未登录，请先登录后发表或查看评论

爬虫入门经典(十四) | 使用selenium尝试爬取豆瓣图书

最新发布

2401_82416248的博客

04-06

550

爬取豆瓣电影数据是一个很有意思的项目。下面是使用 Python 中的requests和库来爬取豆瓣电影数据的一个简单示例。

selenium爬取豆瓣

y15518325965的博客

03-01

532

#coding:utf-8 #__author__='wang' import time from selenium import webdriver from selenium.webdriver.support.ui import WebDriverWait url = 'https://movie.douban.com/' #获取电影详情地址以及电影的名称 def get_datai...

python学习之使用selenium爬取豆瓣图书信息

m0_58050808的博客

03-24

581

selenium、豆瓣图书

【Python爬虫--scrapy+selenium框架】超详细的Python爬虫scrapy+selenium框架学习笔记（保姆级别的，非常详细）

m0_67844671的博客

05-31

6467

Python爬虫--scrapy+selenium框架】超详细的Python爬虫scrapy+selenium框架学习笔记（保姆级别的，非常详细）

Python爬虫进阶（八）——爬虫Scrapy实战之爬取腾讯招聘信息

brilliant666的博客

08-23

2020

前面咱们介绍了scrapy框架的使用，今天就用来爬取一下腾讯招聘的职位信息。

Java爬虫技术：使用jsoup抓取豆瓣电影数据

本文将详细介绍如何使用jsoup实现一个基于Java的网络爬虫，特别是以爬取豆瓣电影数据为例，讲解其工作原理、核心代码实现以及相关的知识要点。 ### 知识点一：网络爬虫概念网络爬虫（Web Crawler）是一种自动提取...

2019-11-08豆瓣网电影区信息爬取与数据分析

qq_39488965的博客

11-08

2527

** 爬取豆瓣电影信息，分析近年电影行业的发展情况 ** 好奇心爆棚的电影爱好者平常的休闲娱乐中，肯定少不了看电影，每次想找找电影看的时候，都会到各大电影评分网站去搜高分、好评、热门的电影，防止自己踩坑，浪费时间、精力去熬一部烂片。电影评分较权威的豆瓣网是我日常求助的地方，出于对电影的热爱和对电影行业的发展状况和趋势，今天就尝试着通过爬虫爬取豆瓣网的电影数据，来分析一下不同的发展趋势。爬虫过程...

爬虫--selenium爬取带验证码的豆瓣网

MR_HJY的博客

08-21

570

from selenium import webdriver import time import requests from lxml import etree import base64 # 操作浏览器 driver = webdriver.Chrome() url = 'https://accounts.douban.com/login?alias=&redir=https%3A...

爬虫笔记（七）——利用selenium对猫眼、豆瓣电影榜单的爬取

knight0113的博客

12-16

2363

利用网页自动化测试工具selenium爬取动态页面，可以实态页面动态信息无法爬取的问题。

python 爬虫实战六：用 selenium 爬取豆瓣电影

weixin_43084570的博客

12-20

7229

今天帮朋友爬取豆瓣电影的数据，以便进行社交网络分析。首先打开豆瓣电影，然后点击分类，选择要爬取的特定电影这里以国产喜剧片为例：依次点击电影、喜剧、中国大陆然后点击一个小的列表按键找到我们要爬取的数据下拉到最底部，有一个加载更多点击会出现新的电影数据。说明这是一个动态网站，需要使用selenium来爬取。 selenium 是一个非常简单方便的库，用来模拟人进行上述操作。但是需要提前安装好这个库，而且需要安装火狐或者Chrome浏览器的geckodriver，具体的细节可以阅读官

selenium点击爬取豆瓣高分电影

DonQuixote_的博客

11-19

1118

前言：当爬虫爬取多页时，大部分网站都是有下一页，或者标记有总页数，这让我们可以通过查找下一页的标签获取下一页的内容，又或者得到总页数，直接for循环url遍历所有页的内容，这两种都可以得到你想爬取多页的信息。那么碰到动态加载的网页，或者点击出现，又或者滑动滚动条加载数据，这种网页的话就需要用其他的方法找数据了 1 解析JSON（好用，难度较大） 2使用selenium 实...

【Python爬虫】使用selenium模块模拟浏览器行为爬取豆瓣电影top250

chibuqikendeji的博客

08-03

1630

使用selenium模块模拟浏览器行为访问豆瓣电影top250页面，然后爬取第一页内容之后，模拟点击下一页，从而获取接下来的网页的html代码，并且进行内容筛选。筛选出排名，名字，播放地址，导演和主演，评价数，评分和电影简介。具体实现代码如下(代码中有注释，就不一一拆分解释了)： from bs4 import BeautifulSoup from selenium import webdri...

用java编写基于selenium的方式抓取豆瓣读书书籍内容

一群专业码农的笔记本

06-21

1193

用java编写基于selenium的方式爬取豆瓣读书书籍内容爬虫的早期感想处理思路顺序需求选型实践源代码selenium设计模式访问入口爬虫的早期感想很久以前，生活中使用c#和java分别写过网页游戏外挂，通过语言中内置的浏览器控件进行爬取数据，并发送新的指令，非常有意思，既能研究爬虫相关技术又能实践在休闲生活中。后面也有在工作中，定时爬取中国天气预报官方信息，提供给前端主页显示天气信息。处理思路顺序需求有朋友需要帮忙收集豆瓣读书中的书籍信息，根据传入的书丛地址，获取书丛中的书籍的信息、封

selenium 爬豆瓣帖子

luoganttcc的博客

08-31

261

#!/usr/bin/env python3 # -*- coding: utf-8 -*- """ Created on Mon Aug 30 19:17:12 2021 @author: ledi """ import time import parsel import csv from selenium import webdriver from selenium.webdriver.support.ui import WebDriverWait import requests from lxm

Scrapy+Selenium关键字豆瓣读书评论爬取

姬小野的博客

06-27

1486

文章目录思路1. 根据关键字构造豆瓣搜索url, 根据结果获取书的id2. 根据id, 构造该书评论的url链接3. 爬取网页内容, 并构造下一页url4. 重复步骤3, 反复爬取过程1. 页面爬取测试2. 使用selenium工具获取id3. 将selenium集成到scrapy中4. 爬取结果5. 阶段性spider代码ip异常问题1. 给selenium添加代理2. 给scrapy添加代理3...

使用selenium实现豆瓣电影信息的自动化搜索

weixin_666888的博客

03-29

724

因为之前写了一段时间的python，但是因为某些其它的事情导致没写博客，所以趁着新任务还是有些时间做，赶紧把之前学习到的、了解到的东西整理一下，也是比较基础的东西，一是怕自己遗忘；二来则是给没用过selenium模块的朋友作些许参考。首先我来解释一下python中的selenium模块。它本质上是一个用作web应用程序测试的框架，Selenium框架可以直接在浏览器中运行，就好比真实用户在浏览器中进行‘点击按钮’，‘文字输入’等操作。其运行的时候，就像是有个‘无形的手’在操纵着你的鼠标、键盘等。接下

【爬虫】使用selenium深度爬取豆瓣网

详细举例使用selenium深度爬取豆瓣网

这里举例豆瓣同城 北京最近一周的音乐会活动

1.使用Edge浏览器作为驱动

2.指定url发送请求

根据F12得到网站的请求url，请求方法，内容类型

driver.get()

3.获取每项活动的url

可以发现是一个ul列表内包含多个li标签

其中href标签就是每项活动的url

可以根据url进入活动的详细页面

find_elements()爬取所有li列表数据

遍历li_list通过get_attribute()获得href标签内的url

4.爬取网站元素

对获取到的每项活动的url再次发送请求

遍历url_list对url发送请求

这里举例豆瓣同城北京最近一周的音乐会活动