python爬虫笔记第三章

这篇博客主要介绍了Python爬虫中处理Cookie和模拟用户登录的技巧,包括使用requests库的session处理Cookie,防止防盗链的方法,以及如何使用代理避免IP被封锁。此外,还提及了综合练习——抓取网易云音乐的热评,但详细实现留待后续补充。
摘要由CSDN通过智能技术生成

前言

你好! 这是基于b站2021年路飞学成爬虫教程的python爬虫学习笔记,主要是方便作者复习和回顾课程内容。
已经发布了第一章和第二章,可以在主页中查看。

01 requests进阶概述

我们在之前的爬⾍中其实已经使⽤过headers了. header为HTTP协议中的请求头. ⼀般存放⼀些和请求内容⽆关的数据. 有时也会存放⼀些安全验证信息.⽐如常⻅的User-Agent, token, cookie等.通过requests发送的请求, 我们可以把请求头信息放在headers中. 也可以单独进⾏存放, 最终由requests⾃动帮我们拼接成完整的http请求头.
本章内容:

  1. 模拟浏览器登录->处理cookie
  2. 防盗链处理-> 抓取梨视频数据
  3. 代理 -> 防⽌被封IP
    综合训练:
    抓取⽹易云⾳乐评论信息

02 模拟用户登录——处理cookie

基本逻辑:
登录 -> 得到cookie
带着cookie 去请求到书架url -> 书架上的内容

必须得把上面的两个操作连起来
我们可以使用session进行请求 -> session你可以认为是一连串的请求. 在这个过程中的cookie不会丢失

用到的网站:https://www.17k.com/

# 登录 -> 得到cookie
# 带着cookie 去请求到书架url -> 书架上的内容
#
# 必须得把上面的两个操作连起来
# 我们可以使用session进行请求 -> session你可以认为是一连串的请求. 在这个过程中的cookie不会丢失
import requests

#会话
session = requests.session()
data = {
   
    "loginName": "18614075987",
    "password": "q6035945"
}

# 1. 登录
url = "https://passport.17k.com/ck/user/login"
resp = session.post(url, data=data
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值