怎么爬取多页数据呢？

最新推荐文章于 2024-06-29 10:17:35 发布

新手小龙

最新推荐文章于 2024-06-29 10:17:35 发布

阅读量308

点赞数

文章标签： python 开发语言

本文链接：https://blog.csdn.net/weixin_74862044/article/details/133818898

版权

注释：小码在这里以贝壳租房为例（贝壳租房：https://cd.zu.ke.com/zufang/pg）

画红线的地方就是小码要爬取的信息

一：引入requests模块和etree模块

注意：先安装才能使用哦，不然就报错啦，具体安装方式小码文章里面有，可供参考

二：假设要爬取1到4页的数据（小码在这里使用的是for循环遍历哦！）

然后回车，注意，这里不要自己去打空格什么的，python是很在意缩进的哦！

三：编辑url地址

1.header编写

在开发者模式中找到User-Agent并复制，详情可见小码的其他文章

2.代理ip设置（可有可无，建议要有）

3.url地址

4.获取以上内容

完整代码展示

四：检查状态码（我使用的if判断）

如果状态码为200，则说明此网页可以成功爬取，如果不是，则无法获取页面 {url} 的内容

五：编写爬取方式

1.编写处理页面内容的代码

 selector = etree.HTML(repsonse.text)

        news_text1 = selector.xpath(
            '//*[@id="content"]/div[1]/div[1]/div/div/p[1]/a/text()|//*[@id="content"]/div[1]/div[1]/div/div/p[2]/a/text()|//*[@id="content"]/div[1]/div[1]/div/div/span/em/text()')

        new_list2 = [element + '\n' if isinstance(element, int) else element for element in news_text1]

我使用了列表推导式来遍历原始列表中的每个元素。因为我获取的最后一个元素是价格，所以如果元素是数字（使用 isinstance(element, int) 判断），就在元素后面添加换行符 \n，否则保留原样。最后，通过一个循环打印新列表，实现了在有数字时换行的效果。

2.打印新列表

        for item in new_list2:
            print(item, end='')

备注：我们使用循环来遍历1到4页的数据。在每次迭代中，我们构建具体页数的URL，并发送HTTP请求以获取页面内容。然后，我们可以使用 BeautifulSoup 或其他解析库来解析页面内容，并编写相应的代码来处理数据。如果需要在爬取过程中添加延时，可以使用 time.sleep() 方法来暂停一段时间。你可以根据实际情况对示例代码进行自定义和扩展。

六：最后，完整的代码展示

import requests
from lxml import etree

header={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36 Edg/117.0.2045.60'
}
for page in range(1,5):  # 假设要爬取1到4页的数据

    url = f'https://cd.zu.ke.com/zufang/pg{page}'  # 替换成你要爬取的网址模板，使用适当的占位符来表示页数

    # 发送HTTP请求获取页面内容
    response = requests.get(url)
    if response.status_code == 200:
        repsonse = requests.get(url,headers=header,proxies=proxies)


        # 在这里编写处理页面内容的代码
        selector = etree.HTML(repsonse.text)

        news_text1 = selector.xpath(
            '//*[@id="content"]/div[1]/div[1]/div/div/p[1]/a/text()|//*[@id="content"]/div[1]/div[1]/div/div/p[2]/a/text()|//*[@id="content"]/div[1]/div[1]/div/div/span/em/text()')

        new_list2 = [element + '\n' if isinstance(element, int) else element for element in news_text1]

        # 打印新列表
        for item in new_list2:
            print(item, end='')
        # print(new_list2)


    else:
        print(f'无法获取页面 {url} 的内容')

新手小龙

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
怎么爬取多页数据呢？

for page in range(1,5): # 假设要爬取1到4页的数据url = f'https://cd.zu.ke.com/zufang/pg{page}' # 替换成你要爬取的网址模板，使用适当的占位符来表示页数# 发送HTTP请求获取页面内容# 在这里编写处理页面内容的代码# 打印新列表else:print(f'无法获取页面 {url} 的内容')
复制链接

扫一扫