从零开始学爬虫--Python[日更] # whisky和你一起实战学爬虫

本文链接：https://blog.csdn.net/whiskybug/article/details/99623601

从零开始学爬虫--Python[日更] # whisky和你一起实战学爬虫

Welcome！ - -[whisky带你学IT]- -公众号

Welcome！ - -[whisky带你学IT]- -公众号

出入T圈小菜鸡，因工作需要开始接触爬虫，维护项目，接下来的几天里我们一起从零升级，闯关打败爬虫，谨以此帖，记录经验。

在这里插入图片描述

1. 爬虫入门：

1.1 爬虫的分类：累积式爬虫聚焦爬虫(针对特定网站) 深网爬虫

1.2 爬虫的流程：

1.向url 发送请求，获取响应
2.对响应进行提取
3.提取url，继续发送请求获取响应
4.提取数据，保存

1.3 http和https

在发送请求，获取响应的过程中就是发送http或https的请求，获取http或https的响应
http ：80 端口 https：443 端口

1.3.1 http 请求过程

浏览器输入 url 发送请求，获取响应
返回响应体中，带有css，js，图片等url地址，以及ajax代码，浏览器按照响应内容中的顺序发送其他请求，获取相应的响应。
浏览器每获取一个响应并在浏览器中展示，直到获取全部响应，并在展示的结果中添加内容或修改————这个过程叫做浏览器的渲染
爬虫只会请求url地址，对应的拿到url地址对应的响应（该响应的内容可以是html，css，js，图片等）浏览器渲染出来的页面和爬虫请求的页面很多时候并不一样，所以在爬虫中，需要以url地址对应的响应为准来进行数据的提取
http 请求的形式
Host (主机和端口号)
Connection (链接类型)
Upgrade-Insecure-Requests (升级为HTTPS请求)
User-Agent (浏览器名称)
Accept (传输文件类型)
Referer (页面跳转处)
Accept-Encoding（文件编解码格式）
Cookie （Cookie）
x-requested-with :XMLHttpRequest (表示该请求是Ajax异步请求)
http 重要的响应头
-1. set-cookie(对方服务器设置cookie到用户浏览器的缓存)
-2. last-modified（对方静态页面最后更新时间）
响应状态码
常见的状态码：

200：成功
302：临时转移至新的url
307：临时转移至新的url
404：找不到该页面
500：服务器内部错误
503：服务不可用
所有的状态码都不可信，一切以是否获取到数据为准

1.4 字符串

UTF-8是Unicode的实现方式之一
py3 中的字符串：str bytes

str 使用encode方法转化为 bytes
s = 'abc'
print(type(s))
#str编码变为bytes类型
b = s.encode
print(type(b))
bytes 通过decode转化为 str
b = b'abc'
print(type(b))
#bytes类型解码成为str类型
s = b.decode()
print(type(s))

在这里插入图片描述

2.2 请求的发送方法

2.2.1 request模块

-requests 模块底层实现就是urllib
作用：发送网络请求，返回响应数据
中文文档： http://docs.python-requests.org/zh_CN/latest/index.html

requests 基础get操作：

import requests

# 目标url
url = 'https://www.baidu.com'

# 向目标url发送get请求
response = requests.get(url)

# 打印响应内容
print(response.text)

response的常用属性：
response.text 响应体 str类型
respones.content 响应体 bytes类型
response.status_code 响应状态码
response.request.headers 响应对应的请求头
response.headers 响应头
response.request.cookies 响应对应请求的cookie
response.cookies 响应的cookie（经过了set-cookie动作）
response.text

类型：str
解码类型： requests模块自动根据HTTP 头部对响应的编码作出有根据的推测，推测的文本编码
如何修改编码方式：response.encoding=”gbk”

response.content

类型：bytes
解码类型：没有指定
如何修改编码方式：response.content.deocde(“utf8”)

2.1.1 requests 两种发送参数的请求

方式一：利用params参数发送带参数的请求
方式二：直接发送带参数的url的请求

2.2.2 requests发送post 请求

response = requests.post("http://www.baidu.com/",data = data,headers=headers)

TODO

花了￥130 大洋报了期货从业考试，在不学习，打水漂了。倒计时18days。发挥大中国从小培养的应试教育功底。开搂！

2 使用代理

2.1 为什么要使用代理
让服务器以为不是同一个客户端在请求
防止我们的真实地址被泄露，防止被追究

正向代理：对于浏览器知道服务器的真实地址，例如VPN
反向代理：浏览器不知道服务器的真实地址，例如nginx

2.4 代理的使用
用法：

requests.get("http://www.baidu.com",  proxies = proxies)
#proxies的形式：字典

#例如：

  proxies = {
      "http": "http://12.34.56.79:9527",
      "https": "https://12.34.56.79:9527",
      }

2.5 代理IP的分类
根据代理ip的匿名程度，代理IP可以分为下面四类：

透明代理(Transparent Proxy)：透明代理虽然可以直接“隐藏”你的IP地址，但是还是可以查到你是谁。
匿名代理(Anonymous Proxy)：使用匿名代理，别人只能知道你用了代理，无法知道你是谁。

高匿代理(Elite proxy或High Anonymity Proxy)：高匿代理让别人根本无法发现你是在用代理，所以是最好的选择。

在使用的使用，毫无疑问使用高匿代理效果最好

从请求使用的协议可以分为：

http代理
https代理
socket代理等
不同分类的代理，在使用的时候需要根据抓取网站的协议来选择
2.6 代理IP使用的注意点
-----反反爬

使用代理ip是非常必要的一种反反爬的方式

但是即使使用了代理ip，对方服务器任然会有很多的方式来检测我们是否是一个爬虫，比如：

一段时间内，检测IP访问的频率，访问太多频繁会屏蔽

检查Cookie，User-Agent，Referer等header参数，若没有则屏蔽

服务方购买所有代理提供商，加入到反爬虫数据库里，若检测是代理则屏蔽

所以更好的方式在使用代理ip的时候使用随机的方式进行选择使用，不要每次都用一个代理ip

-----代理ip池的更新

购买的代理ip很多时候大部分(超过60%)可能都没办法使用，这个时候就需要通过程序去检测哪些可用，把不能用的删除掉。

2.2.3 requess模块处理cookie相关的请求
- requests处理cookie的三种方法
  1.cookie字符串放在headers中
  2.把cookie字典反传给请求方法的cookies参数接收
  3.使用requests提供的session模块
- cookie 添加在headers中

headers中的cookie：
使用分号(;)隔开
分号两边的类似a=b形式的表示一条cookie
a=b中，a表示键（name），b表示值（value）
在headers中仅仅使用了cookie的name和value

在这里插入图片描述
由于headers中对cookie仅仅使用它的name和value，所以在代码中我们仅仅需要cookie的name和value即可

headers = {
"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36",
"Cookie":" Pycharm-26c2d973=dbb9b300-2483-478f-9f5a-16ca4580177e; Hm_lvt_98b9d8c2fd6608d564bf2ac2ae642948=1512607763; Pycharm-26c2d974=f645329f-338e-486c-82c2-29e2a0205c74; _xsrf=2|d1a3d8ea|c5b07851cbce048bd5453846445de19d|1522379036"}

requests.get(url,headers=headers)

注意：通过一个程序专门来获取cookie供其他程序使用

//cookies的形式：字典
cookies = {"cookie的name":"cookie的value"}
//使用方法：
requests.get(url,headers=headers,cookies=cookie_dict}

从零开始学爬虫--Python[日更] # whisky和你一起实战学爬虫

从零开始学爬虫--Python[日更] # whisky和你一起实战学爬虫

Welcome！ - -[whisky带你学IT]- -公众号

1. 爬虫入门：

1.1 爬虫的分类： 累积式爬虫 聚焦爬虫(针对特定网站) 深网爬虫

1.2 爬虫的流程：

1.3 http和https

1.3.1 http 请求过程

1.4 字符串

2.2 请求的发送方法

2.2.1 request模块

2.1.1 requests 两种发送参数的请求

2.2.2 requests发送post 请求

TODO

2 使用代理

2.2.3 requess模块处理cookie相关的请求

1.1 爬虫的分类：累积式爬虫聚焦爬虫(针对特定网站) 深网爬虫