python 爬取Q房网信息

最新推荐文章于 2024-04-27 21:54:26 发布

黑夜中奔跑

最新推荐文章于 2024-04-27 21:54:26 发布

阅读量1.7k

点赞数

分类专栏： python爬虫

本文链接：https://blog.csdn.net/ysy_1_2/article/details/105266086

版权

python爬虫专栏收录该内容

12 篇文章 8 订阅

订阅专栏

首先找到爬取网站
https://beijing.qfang.com/newhouse/list/n1
在这里插入图片描述
箭头点击,XPath下来你的要爬取的信息

把你要爬取的信息记录下来

写入代码

from lxml import etree
import requests
import csv
import time

#写一个函数


# def writecsv(item):
#     with open('qfang.csv','a',encoding= 'utf-8') as f:
#         write=csv.writer(f)
#         #防止出错
#         try:
#              write.writerow(item)
#         except:
#             print('write error!')

if __name__ =='__main__':
    headers ={'user-Agent':'Mozilla/5.0'}
    start_url="https://beijing.qfang.com/newhouse/list/n"
    for x in range(1,9):
        url =start_url+str(x)
        #获取网址
        html =requests.get(url,headers=headers)
        #不能频繁获取请求
        time.sleep(1)
        #构造一个选择器,把文本源代码传给它
        selector= etree.HTML(html.text)
        xiaoqulist =selector.xpath('/html/body/div[4]/div/div[1]/div[4]/ul/li')
        #循环迭代
        for xiaoqu in xiaoqulist:
            try:
                mingcheng =xiaoqu.xpath('div[2]/div[1]/a/em/text()')[0]
                layout=xiaoqu.xpath('div[2]/div[2]/p[3]/a/text()')[0]
                area=xiaoqu.xpath('div[2]/div[3]/p[1]/text()')[0]
                place=xiaoqu.xpath('div[2]/div[3]/p[3]/text()')[0]
                money=xiaoqu.xpath('div[3]/p[2]/text()')[0]
            except IndexError as a:
                print(" ")

            # #构造一个list
            #item =[mingcheng,layout,area,place,money]

            # #写一个函数
            #writecsv(item)
            #保存就print
            print('正在抓取:',mingcheng,layout,area,place,money)

你要爬取的信息
在这里插入图片描述

黑夜中奔跑

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python 爬取Q房网信息

首先找到爬取网站https://beijing.qfang.com/newhouse/list/n1箭头点击,XPath下来你的要爬取的信息把你要爬取的信息记录下来写入代码from lxml import etreeimport requestsimport csvimport time#写一个函数# def writecsv(item):# with o...
复制链接

扫一扫