北京安居客二手房信息爬取

最新推荐文章于 2023-10-24 10:14:55 发布

Tess-one

最新推荐文章于 2023-10-24 10:14:55 发布

阅读量630

点赞数

分类专栏：爬虫文章标签： chrome web service 数据挖掘机器学习

本文链接：https://blog.csdn.net/weixin_46418900/article/details/106299982

版权

import requests
from lxml import etree
#import time
from selenium import webdriver
import pandas as pd
from bs4 import BeautifulSoup

#需要将chromedriver放到Chrome\Application目录下
#chrome_driver=r"C:\Program Files (x86)\Google\Chrome\Application\chromedriver_win32\chromedriver.exe"
chrome_driver=“C:\Program Files (x86)\Google\Chrome\Application\chromedriver_win32\chromedriver.exe”

driver = webdriver.Chrome(executable_path=chrome_driver)
request_url = ‘https://beijing.anjuke.com/sale/p’

print(html)
html = etree.HTML(html)
#print(html)
#去空格，去换行\n
def format_str(str):
return str.replace(’\n’, ‘’).replace(’ ', ‘’)

houses = pd.DataFrame(columns=[“name”, “details”, “address”, “price”])
for i in range(3):
url = request_url + str(i+1)

driver.get(url)

html = driver.find_element_by_xpath("//*&

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Tess-one

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python爬取房源数据_python爬取安居客二手房网站数据（转）

weixin_39897758的博客

12-08

628

之前没课的时候写过安居客的爬虫，但那也是小打小闹，那这次呢，还是小打小闹哈哈，现在开始正式进行爬虫书写首先，需要分析一下要爬取的网站的结构：作为一名河南的学生，那就看看郑州的二手房信息吧！在上面这个页面中，我们可以看到一条条的房源信息，从中我们发现了什么，发现了连郑州的二手房都是这么的贵，作为即将毕业的学生狗惹不起啊惹不起还是正文吧！！！由上可以看到网页一条条的房源信息，点击进去后就会发现：房源的...

Python爬虫整站爬取安居客新房房源数据

weixin_44530636的博客

07-09

4913

对安居客新房房源进行整站爬取，全国所有城市的新房数据。获取数据字段也主要集中在第一个页面，并未进行二层页面的挖掘在持续爬取过程中，会出现验证码的过程，不过它的验证码还是比较友好的，只需要在浏览器拖动图片就行，代码又能重新运行了。整个爬取过程中我只拖动了两次。所以安居客是算非常友好的网站了，当然上述问题也可以使用代理IP 解决。接下来还可以做的，加上代理IP，加上多线程，进行二级页面的进一步...

参与评论您还未登录，请先登录后发表或查看评论

python3 爬虫之爬取安居客二手房资讯(第一版)

dnsf5926的博客

04-17

314

#!/usr/bin/env python3 # -*- coding: utf-8 -*- # Author;Tsukasa import requests from bs4 import BeautifulSoup import pandas import time url_all = [] url_in = input('输入你所需要城市的字...

安居客爬虫（selenium实现）

weixin_34290390的博客

03-19

573

第一次写在博客上写爬虫“教程”，如果有不对的地方还望各位给予指正。先讲一下思路吧，selenium有点击和输入模拟，所以打开链接后----->想网页输入想查询的城市------>到了相应的页面再点击相应的按钮------>获取页面中所有信息------>点击“下一页”------>循环获取网页内容。 1.写好注释，导入模块。 #!/usr/bin/env ...

安居客二手房信息爬取数据（700条）

04-25

从安居客上爬取的二手房信息，格式是.xlsx，可以作为数据挖掘和分析的学习和教学案例数据。

Python3爬虫编程学习笔记（五）实战：爬取安居客房屋信息之 XPath学习

流浪的虎哥的博客

03-28

1673

爬取到网页源代码，并不是目的，爬虫的最终目的是采集到我们想要的数据，那么就必须进行数据提取。一般来说是利用Python自带的正则表达式re模块进行提取。XPath语法可用来在XML和HTML文档中对标签元素和属性进行遍历。所以在做爬虫时，完全可以使用XPath 来进行相应的信息提取。

实战项目一、安居客(北京) 二手房抓取房源信息

03-16

5059

一、首先明确爬取的数据为安居客（北京）的二手房源的数据信息，主要有房源链接地址，房源价格，房源单价，房源规模，房源大小，房源建造年份，房源地址。 https://beijing.anjuke.com/sale/p1/#filtersort 二、分析网页和确定储存方式首先需要做的是确定翻页规则第一页发现地址为第二页发现地址为第三页发现地址为细心的同学可能已...

爬取安居客的信息，并保存到csv文件中。

尼古拉斯_Kai

02-16

2166

这里说明下不要用xpath进行爬取，因为会被封。 # 引入包 import requests from bs4 import BeautifulSoup import time import csv # 定制请求头换成自己的请求头 headers = { 'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:61.0) Ge...

分分钟避坑抓取 安居客 住房信息，并存储到CSV跟XlSX中

爬遍所有网站

10-29

400

温馨提示：报错了就百分之九十九是网址需要手动验证，就请移步去点击验证啦！（这里用了csv跟xsxl两种保存方式，任选其一即可！） # -*- coding: utf-8 -*- """ Created on Tue Oct 27 18:27:21 2020 @author: Yuka 利用Lxml库，爬取前10页的信息，具体信息如下：进入每个房源的页面，爬取小区名称、房屋类型、房屋朝向、参考月供和核心卖点，把它们存储到CSV文件中。 """ from lxml import etre...

安居客二手房信息爬取（六安）

fanhaitao1106的博客

03-30

446

#!usr/bin/env python # -*- encoding:utf-8 -*- import requests from bs4 import BeautifulSoup # 网页的请求头 header = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like...

爬虫项目--爬取安居客二手房信息

pythoner111的博客

08-31

4081

爬虫实战（爬取安居客二手房信息-成都天府新区）环境：python3.6 pycharm bs4库解析方式：bs4 需求：爬取二手房信息字段（titile,house_type,build_time,area,address,price,unit_price），并将爬取到的数据导出到excel表格中，当然你也可直接存到数据库。第一步分析url：第一页的url如下第二页的...

python爬取安居客二手房网站数据（转）

weixin_34306593的博客

04-22

511

python使用代理爬取安居客二手房数据（一）

热门推荐

qq_38230663的博客

05-23

1万+

哈喽，小伙伴们，前两篇博客案例基本上将爬虫基础流程介绍的差不多了，这篇博客开始放重磅炸弹，难度系数上升一些（难度1：涉及二级页面爬取，难度2：共爬取17个字段）。本文的主要内容：以石家庄市为例，爬取安居客网二手房小区的详情页的相关字段信息，关于二手房小区首页信息的爬取这里就不作过多介绍，因为与上一篇博客（Python爬取58同城在售楼盘房源信息）的爬虫步骤基本一致，感兴趣的小伙伴可以去看下呀。好了，废话不多说，开始展开~ 首先，我们先打开安居客官方网站，设置好两个筛选条件：石家庄市、二手房小区（这个根据小

爬取安居客长沙新房的位置、户型、面积等信息。

他山之石可以攻玉

06-10

411

import requests import bs4 import time import random import pandas as pd import os house_info=[] headers = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36" } # for i .

Python爬取分析北京二手房数据？数据结果真的太吓人了

人生苦短，还不用Python？

11-19

686

前言文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。作者：曹金龙 PS：如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://note.youdao.com/noteshare?id=3054cce4add8a909e784ad934f956cef 近期，有个朋友联系我，想统计一下北京二手房的相关的...

[Python爬虫实战2]爬取济南安居客网站上所需街区的二手房平均房价数据

想吃鸡排饭的博客

05-17

4588

一、项目简介有20w的济南用户地址信息（所在区县+街道），用济南市安居客网站（https://jinan.anjuke.com/sale/）查找每个用户所在街道的二手房房源信息，并求出该街道下的所有二手房的平均房价，即xxx元/㎡。最终输出按用户地址文件的原顺序（不要过滤也不要打乱顺序）输出格式：工作地经度,工作地纬度,居住地经度,居住地纬度,区县,街道,房价二、安居客网页分析以“山东省济南市历城区东风街道”中的“东风街道”搜索为例，提示：在安居客想要按照街道名搜索房源时最好不要加区县名，.

爬取北京市安居客新房房价数据

05-09

爬取北京市安居客新房房价数据可以分为以下几个步骤： 1. 确定爬取目标：在安居客网站上选择北京市的新房板块。 2. 分析网页结构：使用浏览器开发者工具查看网页结构，确定需要爬取的数据所在的 HTML 标签和 CSS ...