cookie与session

新手在爬虫中,使用requests模块或者其他模块访问目标页面,或者目标网页需要登录后才能获取网页源码的情况下,发现怎么样都获取不到网页源码,相信这种情况很让人头疼吧!

原因是我们每次访问页面的时候,浏览器都会产生关于我们相关的信息,分别为session与cookies,如果浏览器发现我们没有这些信息,就不会让我们获取到目标页面的源码,下面介绍一下session与cookies:

session:通过在服务器端记录的信息,作用是用来确定用户的身份

cookies:通过在客户端记录的信息,作用也是用来确定用户身份。

下面通过访问某个需要登录账号才能获取到网页源码的案例:

注:这里是需要一个可用账户的(已打码)

post请求的参数可以从已登录的网页中的form表单中获取

通过以上操作便可以拿到目标页面的源码了

以上仅为本人的一点理解,不足之处欢迎指正!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值