python数据爬取入门——day19

最新推荐文章于 2024-04-30 13:19:06 发布

weixin_45750404

最新推荐文章于 2024-04-30 13:19:06 发布

阅读量427

点赞数

分类专栏：每日编程文章标签： python 开发语言后端

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45750404/article/details/122889589

版权

每日编程专栏收录该内容

20 篇文章 0 订阅

订阅专栏

58同城二手房批量图片爬取

网址：天津二手房网，天津房产网，天津二手房买卖出售交易信息-天津58同城

需求分析：

通过此需求来练习简单的反反爬策略，模拟浏览器批量发送请求，处理获得的图片数据。

基本的编码流程：
1、指定url

1）首先根据要求，获取需要爬取数据的url

然后进行UA伪装，获取一个浏览器标识（User-Agent），以谷歌为例：右键选择检查（快捷：fn+F12）,选择network，随意选择一个请求都可以查看到

2）请求参数的处理

参数为url，data（请求需要的传参），headers（将User-Agent封装在字典中）

2、发起请求

通过requests发送get请求。

3、获取响应数据

响应数据存放在response中，为一组text文件。这样就获得了二手房首页的所有数据的html

4、数据解析

对二手房首页进行分析，每个二手房信息的title其实就是一个超链接。那么我们就可以通过数据解析，找到对应存储详情超链接的位置。

定位到如图位置，就可以运用etree的xpath进行数据解析了。

声明一个etree对象，批量获取每一个二手房的超链接（xpath可以直接右键copy里选择，直接复制过来）

5、持久化存储

对于这个url序列，循环发送get请求，访问每一个二手房详情界面，然后同理，获取每个详情页面的text响应数据，xpath定位到需要获取的图片/图片的名称上。

注意：xpath获取的是一个对象，需要索引才能获取到对象里的数据。

进行持久化存储：

引入os，创建一个文件夹，将获取的图片/图片名存储在本地即可。获取的图片数据是二进制的（content）

但是爬取十几个图片后就会报错，可能是ip被封了，需要手动验证。等学了代理ip的反反爬机制继续进行完善。

报错：

weixin_45750404

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python数据爬取入门——day19

58同城二手房批量图片爬取网址：天津二手房网，天津房产网，天津二手房买卖出售交易信息-天津58同城需求分析：通过此需求来练习简单的反反爬策略，模拟浏览器批量发送请求，处理获得的图片数据。基本的编码流程：1、指定url1）首先根据要求，获取需要爬取数据的url然后进行UA伪装，获取一个浏览器标识（User-Agent），以谷歌为例：右键选择检查（快捷：fn+F12）,选择network，随意选择一个请求都可以查看到2）请求参数的处理参数为url，data（请求需要.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。