【第一周】Requests库入门、robots协议——python爬虫慕课笔记

最新推荐文章于 2024-03-14 15:44:30 发布

z5z5z5z56

最新推荐文章于 2024-03-14 15:44:30 发布

阅读量116

点赞数

文章标签：爬虫 python

本文链接：https://blog.csdn.net/z5z5z5z56/article/details/113806197

版权

从这一篇开始，记一些北理工嵩天老师的python爬虫专题课程要点的笔记截图，目的是方便复习~并不完整涵盖所有内容

课程链接
本篇是第一周的内容

第一单元 requests库入门

在这里插入图片描述

在这里插入图片描述

head获得简要信息节约带宽

post一个字符串对默认存储到data下
post一个字典（键值对）对默认存储到表单字段下

put与post类似只不过post是附加，而put会覆盖掉原有数据

在这里插入图片描述

不是200都是失败的

encoding只是根据header中的相关字段信息获得编码
而apparent_encoding是实实在在地从返回内容分析得出编码
把apparent_encoding（utf-8）赋值给encoding后，可读到中文

完整参数：
在这里插入图片描述
12个访问参数即request参数中除了params外的其他12个（见下文）

在这里插入图片描述
七种方法的内部实现其实都是调用了这个request方法
request方法下可选参数kwargs的13中访问控制参数：
13

在这里插入图片描述
7.

8

9

设置代理服务器来访问百度，可以隐藏爬虫源地址，防止爬虫逆追踪
10-13

所有的关键字：

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
因为常用所以有些参数放在前面

try——except
在这里插入图片描述

在这里插入图片描述

表明哪些可以爬，哪些不能爬
可以指定爬虫不能爬
在这里插入图片描述
*是通配符
disallow是不能访问的资源目录
没有robots协议文件的网站，则默认内容都可以爬，嘿嘿嘿~

其意思是打开文件定义为文件标识符f，然后将返回的内容r写到这个文件中
r.content表示返回内容的二进制形式
在这里插入图片描述
这样的代码使得爬取下来的图片用源文件名

关注