怎么爬取多页数据呢?

注释:小码在这里以贝壳租房为例(贝壳租房:https://cd.zu.ke.com/zufang/pg)

画红线的地方就是小码要爬取的信息

一:引入requests模块和etree模块

注意:先安装才能使用哦,不然就报错啦,具体安装方式小码文章里面有,可供参考

二:假设要爬取1到4页的数据(小码在这里使用的是for循环遍历哦!)

然后回车,注意,这里不要自己去打空格什么的,python是很在意缩进的哦!

三:编辑url地址

        1.header编写

                在开发者模式中找到User-Agent并复制,详情可见小码的其他文章

        2.代理ip设置(可有可无,建议要有)

        3.url地址

        4.获取以上内容

完整代码展示

四:检查状态码(我使用的if判断)

如果状态码为200,则说明此网页可以成功爬取,如果不是,则无法获取页面 {url} 的内容

五:编写爬取方式

        1.编写处理页面内容的代码

 selector = etree.HTML(repsonse.text)

        news_text1 = selector.xpath(
            '//*[@id="content"]/div[1]/div[1]/div/div/p[1]/a/text()|//*[@id="content"]/div[1]/div[1]/div/div/p[2]/a/text()|//*[@id="content"]/div[1]/div[1]/div/div/span/em/text()')

        new_list2 = [element + '\n' if isinstance(element, int) else element for element in news_text1] 

        我使用了列表推导式来遍历原始列表中的每个元素。因为我获取的最后一个元素是价格,所以如果元素是数字(使用 isinstance(element, int) 判断),就在元素后面添加换行符 \n,否则保留原样。最后,通过一个循环打印新列表,实现了在有数字时换行的效果。

        2.打印新列表

        for item in new_list2:
            print(item, end='')

备注:我们使用循环来遍历1到4页的数据。在每次迭代中,我们构建具体页数的URL,并发送HTTP请求以获取页面内容。然后,我们可以使用 BeautifulSoup 或其他解析库来解析页面内容,并编写相应的代码来处理数据。如果需要在爬取过程中添加延时,可以使用 time.sleep() 方法来暂停一段时间。你可以根据实际情况对示例代码进行自定义和扩展。

六:最后,完整的代码展示

import requests
from lxml import etree

header={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36 Edg/117.0.2045.60'
}
for page in range(1,5):  # 假设要爬取1到4页的数据

    url = f'https://cd.zu.ke.com/zufang/pg{page}'  # 替换成你要爬取的网址模板,使用适当的占位符来表示页数

    # 发送HTTP请求获取页面内容
    response = requests.get(url)
    if response.status_code == 200:
        repsonse = requests.get(url,headers=header,proxies=proxies)


        # 在这里编写处理页面内容的代码
        selector = etree.HTML(repsonse.text)

        news_text1 = selector.xpath(
            '//*[@id="content"]/div[1]/div[1]/div/div/p[1]/a/text()|//*[@id="content"]/div[1]/div[1]/div/div/p[2]/a/text()|//*[@id="content"]/div[1]/div[1]/div/div/span/em/text()')

        new_list2 = [element + '\n' if isinstance(element, int) else element for element in news_text1]

        # 打印新列表
        for item in new_list2:
            print(item, end='')
        # print(new_list2)


    else:
        print(f'无法获取页面 {url} 的内容')
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值