从零开始学爬虫--Python[日更] # whisky和你一起实战学爬虫

Welcome! - -[whisky带你学IT]- -公众号

出入T圈小菜鸡,因工作需要开始接触爬虫,维护项目,接下来的几天里我们一起从零升级,闯关打败爬虫,谨以此帖,记录经验。

在这里插入图片描述

1. 爬虫入门:

1.1 爬虫的分类: 累积式爬虫 聚焦爬虫(针对特定网站) 深网爬虫

1.2 爬虫的流程:

1.向url 发送请求,获取响应
2.对响应进行提取
3.提取url,继续发送请求获取响应
4.提取数据,保存

1.3 http和https

  • 在发送请求,获取响应的过程中 就是发送http或https的请求,获取http或https的响应
  • http :80 端口 https:443 端口
    在这里插入图片描述

1.3.1 http 请求过程

  • 浏览器输入 url 发送请求,获取响应

  • 返回响应体中,带有css,js,图片等url地址,以及ajax代码,浏览器按照响应内容中的顺序发送其他请求,获取相应的响应。

  • 浏览器每获取一个响应并在浏览器中展示,直到获取全部响应,并在展示的结果中添加内容或修改————这个过程叫做浏览器的渲染

  • 爬虫只会请求url地址,对应的拿到url地址对应的响应(该响应的内容可以是html,css,js,图片等)浏览器渲染出来的页面和爬虫请求的页面很多时候并不一样,所以在爬虫中,需要以url地址对应的响应为准来进行数据的提取

  • http 请求的形式
    在这里插入图片描述

  • Host (主机和端口号)
    Connection (链接类型)
    Upgrade-Insecure-Requests (升级为HTTPS请求)
    User-Agent (浏览器名称)
    Accept (传输文件类型)
    Referer (页面跳转处)
    Accept-Encoding(文件编解码格式)
    Cookie (Cookie)
    x-requested-with :XMLHttpRequest (表示该请求是Ajax异步请求)

  • http 重要的响应头
    -1. set-cookie(对方服务器设置cookie到用户浏览器的缓存)
    -2. last-modified(对方静态页面最后更新时间)

  • 响应状态码
    常见的状态码:

    200:成功
    302:临时转移至新的url
    307:临时转移至新的url
    404:找不到该页面
    500:服务器内部错误
    503:服务不可用
    所有的状态码都不可信,一切以是否获取到数据为准

1.4 字符串

  • UTF-8是Unicode的实现方式之一
  • py3 中的字符串:str bytes
str 使用encode方法转化为 bytes
s = 'abc'
print(type(s))
#str编码变为bytes类型
b = s.encode
print(type(b))
bytes 通过decode转化为 str
b = b'abc'
print(type(b))
#bytes类型解码成为str类型
s = b.decode()
print(type(s))

在这里插入图片描述

2.2 请求的发送方法

2.2.1 request模块

-requests 模块底层实现就是urllib
作用: 发送网络请求,返回响应数据
中文文档 : http://docs.python-requests.org/zh_CN/latest/index.html

  • requests 基础get操作
import requests

# 目标url
url = 'https://www.baidu.com'

# 向目标url发送get请求
response = requests.get(url)

# 打印响应内容
print(response.text)


  • response的常用属性
    response.text 响应体 str类型
    respones.content 响应体 bytes类型
    response.status_code 响应状态码
    response.request.headers 响应对应的请求头
    response.headers 响应头
    response.request.cookies 响应对应请求的cookie
    response.cookies 响应的cookie(经过了set-cookie动作)
  • response.text

类型:str
解码类型: requests模块自动根据HTTP 头部对响应的编码作出有根据的推测,推测的文本编码
如何修改编码方式:response.encoding=”gbk”

  • response.content

类型:bytes
解码类型: 没有指定
如何修改编码方式:response.content.deocde(“utf8”)

2.1.1 requests 两种发送参数的请求

  • 方式一:利用params参数发送带参数的请求
  • 方式二:直接发送带参数的url的请求

2.2.2 requests发送post 请求

response = requests.post("http://www.baidu.com/",data = data,headers=headers)

TODO

  • 花了¥130 大洋报了期货从业考试,在不学习,打水漂了。倒计时18days。发挥大中国从小培养的应试教育功底。开搂!

2 使用代理

2.1 为什么要使用代理
让服务器以为不是同一个客户端在请求
防止我们的真实地址被泄露,防止被追究
-
正向代理:对于浏览器知道服务器的真实地址,例如VPN
反向代理:浏览器不知道服务器的真实地址,例如nginx

  • 2.4 代理的使用
    用法:
requests.get("http://www.baidu.com",  proxies = proxies)
#proxies的形式:字典

#例如:

  proxies = {
      "http": "http://12.34.56.79:9527",
      "https": "https://12.34.56.79:9527",
      }
  • 2.5 代理IP的分类
    根据代理ip的匿名程度,代理IP可以分为下面四类:

    透明代理(Transparent Proxy):透明代理虽然可以直接“隐藏”你的IP地址,但是还是可以查到你是谁。
    匿名代理(Anonymous Proxy):使用匿名代理,别人只能知道你用了代理,无法知道你是谁。

    高匿代理(Elite proxy或High Anonymity Proxy):高匿代理让别人根本无法发现你是在用代理,所以是最好的选择。

    在使用的使用,毫无疑问使用高匿代理效果最好

    从请求使用的协议可以分为:

    http代理
    https代理
    socket代理等
    不同分类的代理,在使用的时候需要根据抓取网站的协议来选择

  • 2.6 代理IP使用的注意点
    -----反反爬

    使用代理ip是非常必要的一种反反爬的方式

    但是即使使用了代理ip,对方服务器任然会有很多的方式来检测我们是否是一个爬虫,比如:

    一段时间内,检测IP访问的频率,访问太多频繁会屏蔽

    检查Cookie,User-Agent,Referer等header参数,若没有则屏蔽

    服务方购买所有代理提供商,加入到反爬虫数据库里,若检测是代理则屏蔽

    所以更好的方式在使用代理ip的时候使用随机的方式进行选择使用,不要每次都用一个代理ip

    -----代理ip池的更新

    购买的代理ip很多时候大部分(超过60%)可能都没办法使用,这个时候就需要通过程序去检测哪些可用,把不能用的删除掉。

    2.2.3 requess模块处理cookie相关的请求

    • requests处理cookie的三种方法
      1.cookie字符串放在headers中
      2.把cookie字典反传给请求方法的cookies参数接收
      3.使用requests提供的session模块
    • cookie 添加在headers中
      在这里插入图片描述
headers中的cookie:
使用分号(;)隔开
分号两边的类似a=b形式的表示一条cookie
a=b中,a表示键(name),b表示值(value)
在headers中仅仅使用了cookie的name和value

在这里插入图片描述
由于headers中对cookie仅仅使用它的name和value,所以在代码中我们仅仅需要cookie的name和value即可

headers = {
"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36",
"Cookie":" Pycharm-26c2d973=dbb9b300-2483-478f-9f5a-16ca4580177e; Hm_lvt_98b9d8c2fd6608d564bf2ac2ae642948=1512607763; Pycharm-26c2d974=f645329f-338e-486c-82c2-29e2a0205c74; _xsrf=2|d1a3d8ea|c5b07851cbce048bd5453846445de19d|1522379036"}

requests.get(url,headers=headers)

注意:通过一个程序专门来获取cookie供其他程序使用

//cookies的形式:字典
cookies = {"cookie的name":"cookie的value"}
//使用方法:
requests.get(url,headers=headers,cookies=cookie_dict}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值