常用的IDE(集成开发环境)工具:
一. Requests库入门
点击查看request库的安装方法
Request库的7个常用方法:
1.Requests库的get()方法
Response对象包含爬虫返回的内容。
a.Response对象常用的5个属性:(牢记)
b.一个小程序:爬取百度页面
2.爬取网页的通用代码框架
a.
Requests库支持6中常用的连接异常
r.raise_for_status()方法能够判断返回的状态是不是200,如果不是,就会产生一个异常requests.HTTPError;如果是200,表示返回的内容是正确的。
3.通用代码框架:
通用代码框架最大的作用是:使得用户访问或爬取网页变得更有效、更稳定、更可靠。
4. HTTP协议及Requests库方法
a.
HTTP,Hypertext Transfer Protocol,超文本传输协议。
b.
HTTP协议对资源的操作:
注意:HTTP协议对资源的每次操作都是无状态的,也就是说,下一次的操作与前面的操作无关。
c.
PATCH和PUT的区别
d.
HTTP协议方法与Requests库方法功能是一致的
5.Requests库主要方法解析
a.
最后一种请求方式平时用的比较少。
b.
6.Requests库网络爬虫实战
实例1:京东商品页面的爬取
全代码如下:
实例2:亚马逊商品页面的爬取
全代码如下:
由于亚马逊的反扒机制很好,所以不一定能够爬取商品页面信息。