前言
你好! 这是基于b站2021年路飞学成爬虫教程的python爬虫学习笔记,主要是方便作者复习和回顾课程内容。
已经发布了第一章和第二章,可以在主页中查看。
01 requests进阶概述
我们在之前的爬⾍中其实已经使⽤过headers了. header为HTTP协议中的请求头. ⼀般存放⼀些和请求内容⽆关的数据. 有时也会存放⼀些安全验证信息.⽐如常⻅的User-Agent, token, cookie等.通过requests发送的请求, 我们可以把请求头信息放在headers中. 也可以单独进⾏存放, 最终由requests⾃动帮我们拼接成完整的http请求头.
本章内容:
- 模拟浏览器登录->处理cookie
- 防盗链处理-> 抓取梨视频数据
- 代理 -> 防⽌被封IP
综合训练:
抓取⽹易云⾳乐评论信息
02 模拟用户登录——处理cookie
基本逻辑:
登录 -> 得到cookie
带着cookie 去请求到书架url -> 书架上的内容
必须得把上面的两个操作连起来
我们可以使用session进行请求 -> session你可以认为是一连串的请求. 在这个过程中的cookie不会丢失
用到的网站:https://www.17k.com/
# 登录 -> 得到cookie
# 带着cookie 去请求到书架url -> 书架上的内容
#
# 必须得把上面的两个操作连起来
# 我们可以使用session进行请求 -> session你可以认为是一连串的请求. 在这个过程中的cookie不会丢失
import requests
#会话
session = requests.session()
data = {
"loginName": "18614075987",
"password": "q6035945"
}
# 1. 登录
url = "https://passport.17k.com/ck/user/login"
resp = session.post(url, data=data