python爬虫实例——session自动登录并爬取相关内容

本文介绍了Python爬虫中如何利用session进行自动登录。首先解释了session的概念,将其比作浏览器会话,用于记录用户在网站上的活动。接着阐述了session与cookies的相互关系,指出cookies存储session编码,session存储用户信息。通过浏览器发送cookies,服务器能识别用户并返回相应的session。文章最后展示了具体项目中实现自动登录的类代码。
摘要由CSDN通过智能技术生成

1、理解下 session (会话)
所谓的会话,你可以理解成我们用浏览器上网,到关闭浏览器的这一过程。session是会话过程中,服务器用来记录特定用户会话的信息。
比如今天双11,你淘宝网浏览了哪些商品,购物出里放了多少件物品,这些记录都会被保存在session中。
session 和 cookies 有什么关系呢?
session和cookies的关系还非常密切——cookies中存储着session的编码信息,session中又存储了cookies的信息。
当浏览器第一次访问购物网页时,服务器会返回set cookies的字段给浏览器,而浏览器会把cookies保存到本地。
等浏览器第二次访问这个购物网页时,就会带着cookies去请求,而因为cookies里带有会话的编码信息,服务器立马就能辨认出这个用户,同时返回和这个用户相关的特定编码的session。
其实这句话很绕,简单理解就是,cookies里有session,session里有cookies,反正两者联系密切!

基础知识可见之前的博客Python爬虫笔记——post请求、cookies及session

以下是新做的项目中的登录的代码,
用类的形式写出来了。

import requests
from lxml.html import etree


class F4Work:
    def __init__(self, phonenumber=None):
        self.session = requests.session()

        self.url = 'https://f4.work/login.php'
        self.headers = {
   'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值