python3 [爬虫实战] selenium + requests 爬取安居客

最新推荐文章于 2025-04-01 22:08:02 发布

xudailong_blog

最新推荐文章于 2025-04-01 22:08:02 发布

阅读量2.6k

点赞数

分类专栏： # python3爬虫我的python3爬虫之路文章标签：安居客 python爬虫安居客 python3 requests

本文链接：https://blog.csdn.net/xudailong_blog/article/details/79303820

版权

本文介绍了如何使用selenium和requests库结合，爬取安居客网站上的地区名称和链接。由于直接使用requests无法获取数据，作者转而采用selenium解决这个问题。提供了详细的代码片段，成功获取了大约650条有效数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

很简单，这里是根据网友的求助爬取的安居客上的一个页面的全部地区名称跟链接

因为她用的scrapy框架，感觉有些大才小用了，所以就直接用了一个requests库，selenium 和xpath进行一整页数据的爬取

我们爬取的网站：https://www.anjuke.com/sy-city.html

获取的内容：包括地区名，地区链接：

安居客详情

1 一开始直接用requests库进行网站的爬取，会访问不到数据的，会直接出现访问的页面出现错误的信息。（ps：这里就暂时不打印出来了。）

2 因为一直报错，脑瓜子不知道怎么的就想到了selenium 这个框架，可能是爬安居客之前用selenium 爬取了天猫的商品内容吧。

3 selenium 的使用,我的博客上有说过：

http:/blog.csdn.net/xudailong_blog/

4 现在贴上代码片段：

# -*- coding: utf-8 -*-
# @Time    : 2017/9/19 21:36
# @Author  : 蛇崽
# @Email   : 17193337679@163.com
# @File    : anjuke.py 安居客房产网
import requests
import re
from bs4 import BeautifulSoup
import csv

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

xudailong_blog

关注关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

python 爬虫利用selenium模拟登录帐号向requests中重设 cookie

u013716507的博客

11-22

5629

文章解决问题： 1、利用selenium模拟登录 2、获取模拟登录后的cookie 3、将cookie保存在python 的 requests中，做进一步的爬取工作。具体步骤代码： 1、利用selenium模拟登录： driver =webdriver.PhantomJS(executable_path="phantomjs.exe") driver.get(self.lo

Python爬虫学习手册

资源小站

04-05

3095

like:128-Python 爬取落网音乐 like:127-【图文详解】python爬虫实战——5分钟做个图片自动下载器 like:97-用Python写一个简单的微博爬虫 like:87-爬虫抓取拉勾网职位需求关键词，并生成统计图 like:87-Python爬虫实战（2）：爬取京东商品列表 like:85-python爬虫入门(1):爬万本书籍 like:73-Python爬虫...

参与评论您还未登录，请先登录后发表或查看评论

PYTHON爬虫+selenium+Request+Python 网络数据采集

09-29

整理了PYTHON爬虫,包括了Requests使用指南，selenium webdriver的爬虫请求的学习资料，Python写网络爬虫。

爬虫笔记(3）-selenium和requests

zxq997997的博客

06-08

222

爬虫笔记

自动化测试： Selenium 自动登录授权，再 Requests 请求内容

最新发布

2401_86705854的博客

04-01

734

登录过程如果遇到验证呢？滑动验证，可以 Selenium 模拟滑动距离，图像梯度算法可判断图文验证，可以 Python AI 库识别。

爬取安居客

mou kai的博客

08-21

2319

爬取安居客,获取杭州萧山二手房获取链接,小区,地址,二手房,价格,保存到csv表格中代码如下: # -*- coding: utf-8 -*- import csv import time import requests import io import sys from lxml import etree sys.stdout = io.TextIOWrapper(sys.stdout...

浏览器行为模拟之requests、selenium模块

agurt80004的专栏

11-10

591

　　　　　　　　　　　　requests模块前言：通常我们利用Python写一些WEB程序、webAPI部署在服务端，让客户端request，我们作为服务器端response数据；但也可以反主为客利用Python的requests模块模拟浏览器行为，向其他站点发送request，让...

知识领域：后端技术：Python 内容：安居客二手房源用途：Python爬虫安居客二手房源信息数据保存本地

12-28

总结起来，本项目涉及的知识点包括Python后端开发、Python爬虫技术（requests、BeautifulSoup、Selenium等）、数据存储（CSV、JSON、SQLite）以及爬虫实战中的反爬策略、数据清洗和异常处理。通过这个项目，你可以...

如何构建一个Python爬虫来抓取安居客网站上的二手房数据，并使用Kafka在配置了SASL和SSL安全机制的情况下进行数据传输？

11-10

《Python爬取安居客：二手房数据抓取实例详解》一书将带你深入了解Python爬虫的构建过程，特别是在抓取网站数据时的各种技巧和方法。本书详细介绍了如何从安居客这样的房产信息网站中提取二手房数据，包括网页结构...

python网络编程requests和selenium模块

CaprYang的博客

12-13

2563

import requests #需要命令行下pip install requests安装 req = requests.get("http://httpbin.org/get", headers = {"User-Agent" : "ua"}, proxies = {"http" : "ip:port"}, timeout =

100天精通Python丨黑科技篇 —— 21、大语言模型_100天精通python快速入门到黑科技

m0_60452141的博客

04-26

1569

ChatGPT 是 OpenAI 推出的一种基于 GPT-3/4 的聊天机器人。chatgpt 的颠覆性影响主要体现在提高语言交流的便捷性、个性化服务、自动化客服和教育娱乐等方面，这些应用可以为用户带来更多的便利和乐趣，同时也为企业提供了更多的服务和商机。本文收录于，是由的硬核博主倾力打造，分基础知识篇和黑科技应用两大部分，欢迎订阅本专栏，订阅后可私聊进Python全栈VIP交流群（问题解答、互相帮助）还可领取20GPython视频和100本互联网行业电子书。

Python-Requests和Selenium之间的集成层用于Web操作的自动化

08-12

Requests和Selenium之间的集成层，用于Web操作的自动化

【python爬虫专项（24）】协调Selenium与requests+bs的方法

lys_828的博客

02-13

1131

爬虫难点在哪里？反爬问题 → 网页无法访问页面动态信息（js脚本写入）→ 无法快速解析网页内容页面信息js写入网址非静态网址 selenium与requests+bs采集的异同是？ 1）区别点 ① 对于访问网址 selenium通过webdriver来实现，登陆则通过页面交互实现 requests实现，登陆通过设置cookies信息实现 ② 对于解析网页信息 bs在解析网页标签的时候，是t...

总结最近学习python爬虫遇到的问题（selenium+Chrome，urllib，requests）

u010883226的专栏

07-03

2478

最近学习了一下爬虫，兴趣使然吧！（注：以下均在python3的环境下实验）1.基本库，先说一下基本库有，urllib和requests两个库：基本库的作用是：发送页面请求，处理异常，解析链接，分析Robots协议。基本用法urllib有:from urllib.request import urlopen,Request req = Request(url,headers=headers) pic...

爬虫的步骤(selenium,requests等)

q1017262470的博客

04-10

671

爬虫的步骤什么是爬虫(spider) 爬虫就是通过代码取获取别人网站上的数据爬虫的基本步骤获取网站数据 - - - - requests和自动化测试工具(Selenium) 认识网站 ''' 一个网页由三个部分组成：html、css、javascript(js) html - 决定网页中有什么 css - 决定网页中内容的样式(长什么样) js - 让网页内容动态变化 ''' requests的使用 import requests from

自动化测试 —— requests和selenium模块！_selenium和request(1)

2401_84141337的博客

05-13

429

可以加入我们一起交流。而且还有很多在自动化，性能，安全，测试开发等等方面有一定建树的技术大牛。qq群号：110685036【暗号：csdn999】分享他们的经验，还会分享很多直播讲座和技术沙龙。

python爬虫之requests库与Selenium库代理设置详解

qq_45568418的博客

07-20

749

python爬虫之requests库与Selenium库代理设置详解1. requests库代理的设置1.1 不需要认证的代理1.2 对于需要认证的代理，写法如下1.3 如果需要使用SOCK5代理，则可以使用如下方式来设置1.4 另外一种设置代理的方法pip3 install PySocks2. Selenium库代理设置2.1 Chrome代理设置2.1.1 不需要认证2.1.2 若代理需要认证(相对比较复杂)2.2 PhantomJS2.2.1 不需要认证2.2.2 需要认证,只需要加入--proxy-

python爬虫之requests+selenium+BeautifulSoup

weixin_30793643的博客

07-08

295

前言：环境配置：windows64、python3.4 requests库基本操作： 1、安装：pip install requests 2、功能：使用 requests 发送网络请求，可以实现跟浏览器一样发送各种HTTP请求来获取网站的数据。 3、命令集操作： import requests # 导入requests模块 r = requests.get("ht...

利用BS实现安居客房地产中介信息的爬取

xiaocaibai的博客

12-10

553

python中的BS

python selenium爬虫豆瓣_使用selenium+requests爬取豆瓣小组讨论列表

06-07

好的，可以的。你需要先安装selenium和requests库，然后下载对应的浏览器驱动，比如Chrome驱动。以下是一个简单的例子，使用selenium打开豆瓣小组讨论列表页面并获取数据： ```python import time import requests from selenium import webdriver # 设置浏览器驱动路径 driver_path = '/path/to/chromedriver' # 设置浏览器参数 options = webdriver.ChromeOptions() options.add_argument('--headless') options.add_argument('--disable-gpu') options.add_argument('--no-sandbox') # 启动浏览器 driver = webdriver.Chrome(executable_path=driver_path, options=options) # 打开网页 url = 'https://www.douban.com/group/explore' driver.get(url) # 等待页面加载 time.sleep(2) # 获取页面源码 html = driver.page_source # 关闭浏览器 driver.quit() # 使用requests库处理数据 # TODO: 解析html并获取需要的信息 ``` 在这个例子中，我们使用了Chrome浏览器，并且设置了一些参数，比如无头模式等。然后打开豆瓣小组讨论列表页面，等待页面加载完毕后，获取页面源码并关闭浏览器。最后可以使用requests库来处理页面数据，比如解析HTML并获取需要的信息。注意：使用selenium爬虫需要注意反爬机制，避免被封IP。建议设置合理的访问时间间隔，并使用代理IP等反反爬措施。