python爬虫笔记第三章

最新推荐文章于 2024-04-25 22:53:37 发布

小企鹅的学习日记

最新推荐文章于 2024-04-25 22:53:37 发布

阅读量455

点赞数 1

分类专栏：爬虫文章标签： python cookie

本文链接：https://blog.csdn.net/weixin_46501211/article/details/115407172

版权

这篇博客主要介绍了Python爬虫中处理Cookie和模拟用户登录的技巧，包括使用requests库的session处理Cookie，防止防盗链的方法，以及如何使用代理避免IP被封锁。此外，还提及了综合练习——抓取网易云音乐的热评，但详细实现留待后续补充。

摘要由CSDN通过智能技术生成

前言

你好！这是基于b站2021年路飞学成爬虫教程的python爬虫学习笔记，主要是方便作者复习和回顾课程内容。
已经发布了第一章和第二章，可以在主页中查看。

01 requests进阶概述

我们在之前的爬⾍中其实已经使⽤过headers了. header为HTTP协议中的请求头. ⼀般存放⼀些和请求内容⽆关的数据. 有时也会存放⼀些安全验证信息.⽐如常⻅的User-Agent, token, cookie等.通过requests发送的请求, 我们可以把请求头信息放在headers中. 也可以单独进⾏存放, 最终由requests⾃动帮我们拼接成完整的http请求头.
本章内容:

模拟浏览器登录->处理cookie
防盗链处理-> 抓取梨视频数据
代理 -> 防⽌被封IP
综合训练:
抓取⽹易云⾳乐评论信息

02 模拟用户登录——处理cookie

基本逻辑：
登录 -> 得到cookie
带着cookie 去请求到书架url -> 书架上的内容

必须得把上面的两个操作连起来
我们可以使用session进行请求 -> session你可以认为是一连串的请求. 在这个过程中的cookie不会丢失

用到的网站：https://www.17k.com/

# 登录 -> 得到cookie
# 带着cookie 去请求到书架url -> 书架上的内容
#
# 必须得把上面的两个操作连起来
# 我们可以使用session进行请求 -> session你可以认为是一连串的请求. 在这个过程中的cookie不会丢失
import requests

#会话
session = requests.session()
data = {
   
    "loginName": "18614075987",
    "password": "q6035945"
}

# 1. 登录
url = "https://passport.17k.com/ck/user/login"
resp = session.post(url, data=data

最低0.47元/天解锁文章

小企鹅的学习日记

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python爬虫笔记第三章

前言你好！这是基于b站2021年路飞学成爬虫教程的python爬虫学习笔记，主要是方便作者复习和回顾课程内容。已经发布了第一章和第二章，可以在主页中查看。第三章前言01 requests进阶概述02 模拟用户登录——处理cookie01 requests进阶概述我们在之前的爬⾍中其实已经使⽤过headers了. header为HTTP协议中的请求头. ⼀般存放⼀些和请求内容⽆关的数据. 有时也会存放⼀些安全验证信息.⽐如常⻅的User-Agent, token, cookie等.通过reques
复制链接

扫一扫