Scrapy入门-爬取需要登录后才能访问的数据

最新推荐文章于 2025-02-24 10:37:37 发布

风夜阑竹

最新推荐文章于 2025-02-24 10:37:37 发布

阅读量3.6k

点赞数 8

分类专栏： python 文章标签： python 爬虫 scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhutou_xu/article/details/114211234

版权

本篇是Scrapy入门系列第四篇，建议读者依顺序循序渐进阅读，有任何疑问可以在评论区留言。另外，您的支持是我坚持更新的最大动力，右上角点关注给个鼓励吧。

前面几篇文章抓取的均是公开的数据，即没有控制访问权限即可浏览的数据。但还是存在一些网站（比如教学管理系统、内部论坛等），它会首先要求你登录，然后才能访问到后续的内容。这种情况下，就要首先解决登录授信的问题。在开始编码实现前，我们先了解下登录授信的原理。

Cookie

Cookie，引用百度百科的定义“是某些网站为了辨别用户身份，进行Session跟踪而储存在用户本地终端上的数据（通常经过加密），由用户客户端计算机暂时或永久保存的信息”。网站就是判断一个请求里带的cookie是否有效，来判断客户请求是否已登录过，来避免每次访问一个新的网页，都要求重新登录（这样就反人类了）。

那客户端是如何拿到cookie的呢，下面是一个流程图。

</

最低0.47元/天解锁文章

博客等级

码龄14年

18
原创

49
点赞

177
收藏

48
粉丝

关注

私信

热门文章

分类专栏

C#相关 1篇
python 6篇
linux 12篇
oracle 3篇
C/C++ 10篇
各种算法研究 1篇
网络编程 1篇

最新评论

Linux下程序运行中替换动态链接库引起崩溃详解
谢艺华: 英雄惜英雄，只有真正懂得人，才知道你这篇文章难度有多高
python实战-实现内网CAS统一认证登录
weixin_38355367: from requests import Session # 导入 casService 类 from cas_service import casService # 创建一个服务会话对象 svr_session = Session() # 创建 casService 实例 cas = casService(svr_session) # 设置CAS登录的相关参数 service_url = "https://example.com" username = "your_username" password = "your_password" # 调用Login方法进行CAS登录 login_result = cas.Login(serviceUrl=service_url, username=username, password=password) # 打印登录结果 if login_result: print("CAS login successful!") else: print("CAS login failed.")
Scrapy入门-翻页爬取及抓取链接页内容
weixin_71976922: 大佬！有个小问题想问下，我在使用你的方法爬一个网站的时候虽然没有报错，但是出现了爬虫被老师禁止访问的情况，但是那个网站是老师让我们爬的，应该不会反爬，所以我也不知道问题在哪了
python实战-实现内网CAS统一认证登录
猫合: 同问。请问您现在知道嘛？
Scrapy入门-翻页爬取及抓取链接页内容
weixin_46486995: 博主，请问下没有下一页 url 翻页是动态的 scrapy 框架还适合吗

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。