【第一周】Requests库入门、robots协议——python爬虫慕课笔记

从这一篇开始,记一些北理工嵩天老师的python爬虫专题课程要点的笔记截图,目的是方便复习~并不完整涵盖所有内容

课程链接
本篇是第一周的内容

第一单元 requests库入门

http协议

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

requests库的主要方法

在这里插入图片描述
在这里插入图片描述
head获得简要信息节约带宽
在这里插入图片描述
在这里插入图片描述
post一个字符串对默认存储到data下
post一个字典(键值对)对默认存储到表单字段下
在这里插入图片描述
put与post类似只不过post是附加,而put会覆盖掉原有数据

get方法

在这里插入图片描述
在这里插入图片描述
不是200都是失败的
在这里插入图片描述
在这里插入图片描述
encoding只是根据header中的相关字段信息获得编码
而apparent_encoding是实实在在地从返回内容分析得出编码
把apparent_encoding(utf-8)赋值给encoding后,可读到中文

完整参数:
在这里插入图片描述
12个访问参数即request参数中除了params外的其他12个(见下文)

request方法

在这里插入图片描述
七种方法的内部实现其实都是调用了这个request方法
request方法下可选参数kwargs的13中访问控制参数:
13

  1. params
    在这里插入图片描述
    把一些键值对增加到url中
  2. data
    在这里插入图片描述
    此时是把键值对存放到url对应位置作为数据来存储
  3. json
    在这里插入图片描述
    作为内容,赋值到服务器的json上
  4. headers
    在这里插入图片描述
    模拟Chrome10浏览器访问

在这里插入图片描述
7.
在这里插入图片描述
8
在这里插入图片描述
9
在这里插入图片描述
设置代理服务器来访问百度,可以隐藏爬虫源地址,防止爬虫逆追踪
10-13
在这里插入图片描述
所有的关键字:
在这里插入图片描述

head方法

在这里插入图片描述

post方法

在这里插入图片描述

put方法

在这里插入图片描述

patch方法

在这里插入图片描述

delete方法

在这里插入图片描述
因为常用所以有些参数放在前面

request库的代码框架

try——except
在这里插入图片描述

request库的异常

在这里插入图片描述在这里插入图片描述
在这里插入图片描述

第二单元 robots协议

表明哪些可以爬,哪些不能爬
可以指定爬虫不能爬
在这里插入图片描述
*是通配符
disallow是不能访问的资源目录
没有robots协议文件的网站,则默认内容都可以爬,嘿嘿嘿~
在这里插入图片描述在这里插入图片描述在这里插入图片描述

第三单元 项目实战

  • 亚马逊案例:
    修改header模拟浏览器访问以爬取防护做得比较好的网页
    在这里插入图片描述
    虽然经过实际实践2021.2.15没有模拟也可以爬取到内容哈哈

  • 百度360搜索案例
    使用params关键词修改url内容(中的keywords)实现搜索
    在这里插入图片描述在这里插入图片描述
    360搜索就是把键值对wd改成q即可

  • 网络图片的爬取
    首先随便找一个图片链接,执行以下代码

其意思是打开文件定义为文件标识符f,然后将返回的内容r写到这个文件中
r.content表示返回内容的二进制形式
在这里插入图片描述
这样的代码使得爬取下来的图片用源文件名

  • ip地址归属地查询
    这个栗子2021.2已不可用
    在这里插入图片描述
    blog.csdnimg.cn/20210215113047636.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3o1ejV6NXo1Ng==,size_16,color_FFFFFF,t_70)
    最后提醒一句 requests是库,request是发送给网络的对象
    end
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值