python爬虫入门

常用的IDE(集成开发环境)工具:
在这里插入图片描述

一. Requests库入门

点击查看request库的安装方法
Request库的7个常用方法:
在这里插入图片描述
1.Requests库的get()方法
在这里插入图片描述Response对象包含爬虫返回的内容。

a.Response对象常用的5个属性:(牢记)
在这里插入图片描述
b.一个小程序:爬取百度页面
在这里插入图片描述
2.爬取网页的通用代码框架
a.
Requests库支持6中常用的连接异常
在这里插入图片描述
在这里插入图片描述r.raise_for_status()方法能够判断返回的状态是不是200,如果不是,就会产生一个异常requests.HTTPError;如果是200,表示返回的内容是正确的。

3.通用代码框架
在这里插入图片描述通用代码框架最大的作用是:使得用户访问或爬取网页变得更有效、更稳定、更可靠

4. HTTP协议及Requests库方法
a.
HTTP,Hypertext Transfer Protocol,超文本传输协议。
在这里插入图片描述
在这里插入图片描述在这里插入图片描述

b.
HTTP协议对资源的操作:
在这里插入图片描述
在这里插入图片描述
注意:HTTP协议对资源的每次操作都是无状态的,也就是说,下一次的操作与前面的操作无关。

c.
PATCH和PUT的区别
在这里插入图片描述
d.
HTTP协议方法与Requests库方法功能是一致的
在这里插入图片描述

5.Requests库主要方法解析
在这里插入图片描述
a.
在这里插入图片描述在这里插入图片描述最后一种请求方式平时用的比较少。

在这里插入图片描述
在这里插入图片描述
b.
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述
6.Requests库网络爬虫实战
实例1:京东商品页面的爬取
在这里插入图片描述
全代码如下:
在这里插入图片描述
实例2:亚马逊商品页面的爬取
全代码如下:
在这里插入图片描述
由于亚马逊的反扒机制很好,所以不一定能够爬取商品页面信息。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值