python 爬取Q房网信息

首先找到爬取网站
https://beijing.qfang.com/newhouse/list/n1
在这里插入图片描述
箭头点击,XPath下来你的要爬取的信息
在这里插入图片描述
把你要爬取的信息记录下来
在这里插入图片描述
写入代码

from lxml import etree
import requests
import csv
import time

#写一个函数


# def writecsv(item):
#     with open('qfang.csv','a',encoding= 'utf-8') as f:
#         write=csv.writer(f)
#         #防止出错
#         try:
#              write.writerow(item)
#         except:
#             print('write error!')

if __name__ =='__main__':
    headers ={'user-Agent':'Mozilla/5.0'}
    start_url="https://beijing.qfang.com/newhouse/list/n"
    for x in range(1,9):
        url =start_url+str(x)
        #获取网址
        html =requests.get(url,headers=headers)
        #不能频繁获取请求
        time.sleep(1)
        #构造一个选择器,把文本源代码传给它
        selector= etree.HTML(html.text)
        xiaoqulist =selector.xpath('/html/body/div[4]/div/div[1]/div[4]/ul/li')
        #循环迭代
        for xiaoqu in xiaoqulist:
            try:
                mingcheng =xiaoqu.xpath('div[2]/div[1]/a/em/text()')[0]
                layout=xiaoqu.xpath('div[2]/div[2]/p[3]/a/text()')[0]
                area=xiaoqu.xpath('div[2]/div[3]/p[1]/text()')[0]
                place=xiaoqu.xpath('div[2]/div[3]/p[3]/text()')[0]
                money=xiaoqu.xpath('div[3]/p[2]/text()')[0]
            except IndexError as a:
                print(" ")

            # #构造一个list
            #item =[mingcheng,layout,area,place,money]

            # #写一个函数
            #writecsv(item)
            #保存就print
            print('正在抓取:',mingcheng,layout,area,place,money)



你要爬取的信息
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
以下是爬取q房网数据的简单教程: 1. 安装必要的库 首先,你需要安装`requests`和`beautifulsoup4`这两个Python库。你可以使用以下命令来安装它们: ``` pip install requests pip install beautifulsoup4 ``` 2. 确定目标URL 我们需要找到目标URL,即包含我们想要爬取数据的网页。假设我们要爬取q房网的深圳租房信息,我们可以使用以下URL: ``` https://shenzhen.qfang.com/rent/f0 ``` 3. 发送请求 接下来,我们需要向目标URL发送请求,以获取HTML代码。我们可以使用`requests`库的`get()`方法来发送GET请求并获取响应。 ```python import requests url = 'https://shenzhen.qfang.com/rent/f0' response = requests.get(url) html = response.text ``` 4. 解析HTML代码 现在,我们已经成功地获取了HTML代码。接下来,我们需要使用`beautifulsoup4`库来解析HTML代码,以便我们可以提取出我们需要的数据。 ```python from bs4 import BeautifulSoup soup = BeautifulSoup(html, 'html.parser') ``` 5. 提取数据 我们可以使用`beautifulsoup4`库的各种方法来提取数据。例如,如果我们想要提取所有租房信息的标题和价格,我们可以使用以下代码: ```python titles = [] prices = [] for item in soup.find_all('div', {'class': 'list-item'}): title = item.find('a').text.strip() price = item.find('p', {'class': 'price'}).text.strip() titles.append(title) prices.append(price) ``` 在上面的代码,我们首先使用`find_all()`方法找到所有的租房信息元素,然后使用`find()`方法找到每个元素的标题和价格,并将它们添加到相应的列表。 6. 存储数据 最后,我们可以将提取的数据存储在本地文件或数据库。例如,我们可以将标题和价格存储在一个CSV文件: ```python import csv with open('qfang.csv', 'w', newline='', encoding='utf-8') as f: writer = csv.writer(f) writer.writerow(['Title', 'Price']) for i in range(len(titles)): writer.writerow([titles[i], prices[i]]) ``` 这样,我们就成功地爬取了q房网的租房信息并将其存储在CSV文件

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值