9.网络爬虫—理解并利用Cookie进行高级网页抓取

最新推荐文章于 2024-08-08 18:34:38 发布

摘星月为妆。

最新推荐文章于 2024-08-08 18:34:38 发布

阅读量1.6k

点赞数 33

分类专栏： # Python网络爬虫基础入门文章标签：爬虫

本文链接：https://blog.csdn.net/weixin_63740705/article/details/138068988

版权

Python网络爬虫基础入门专栏收录该内容

14 篇文章 0 订阅

订阅专栏

9.网络爬虫—理解并利用Cookie进行高级网页抓取

Cookie
Opener
Cookielib
案例1：获取Cookie保存到变量
案例2：cookie保存文件的读取

Cookie

在这里插入图片描述

Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）

比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。那么我们可以利用Urllib库保存我们登录的Cookie，然后再抓取其他页面就达到目的了。

在网络爬虫中，使用Cookie可以用来处理：

会话状态管理：Cookie可以帮助服务器记录客户端的状态，如用户登录状态、购物车内容、游戏分数等。这些信息对于模拟用户行为进行爬取是非常重要的。
个性化设置：通过Cookie，服务器可以记录用户的个性化设置，如主题偏好等。在爬虫中，这可以帮助模拟特定用户的请求，从而获取定制化的内容。
浏览器行为跟踪：Cookie可以用来跟踪分析用户行为，虽然这在一定程度上涉及隐私问题，但在爬虫中，了解和模拟这种行为有助于更好地模拟真实用户的操作，提高爬取效率。
维持登录状态：在进行需要登录的网站爬取时，Cookie可以用来维持登录状态。用户登录后，服务器会将用户信息加密后封装成Cookie返回给浏览器，之后每次请求都会带上这个Cookie，以证明用户的身份。
提高爬取效率：有些网站会根据用户的登录状态提供不同的内容或接口，使用Cookie可以帮助爬虫绕过一些因为未登录而无法访问的限制，从而提高爬取效率。
模拟多用户操作：在某些情况下，爬虫需要模拟多个用户进行操作，通过管理和切换不同的Cookie，可以实现这一点。
自动化操作：在爬虫中实现Cookie的自动化获取和管理，可以让爬虫更加智能地处理登录和会话维持等问题，减少人工干预的需要。

Opener

当我们获取一个URL时，我们通常会使用一个opener（一个urllib.OpenerDirector的实例）。在前面的例子中，我们使用的是默认的opener，也就是urlopen。它是一个特殊的opener，可以理解成opener的一个特殊实例，传入的参数仅仅是url、data和timeout。

如果我们需要处理Cookie，仅仅使用这个opener是无法达到目的的。因此，我们需要创建更一般的opener来实现对Cookie的设置。

下面是一个示例代码，演示如何使用urllib库创建一个带有Cookie的opener：

import urllib.request
from http.cookiejar import CookieJar

# 创建一个CookieJar对象来存储Cookie
cookie_jar = CookieJar()

# 创建一个HTTPCookieProcessor对象，并将CookieJar对象作为参数传入
cookie_processor = urllib.request.HTTPCookieProcessor(cookie_jar)

# 创建一个自定义的opener，将HTTPCookieProcessor对象作为参数传入
opener = urllib.request.build_opener(cookie_processor)

# 使用自定义的opener打开URL并获取响应
response = opener.open('http://example.com')

# 打印响应内容
print(response.read())

在这个示例中，我们首先创建了一个CookieJar对象来存储Cookie。然后，我们创建了一个HTTPCookieProcessor对象，并将CookieJar对象作为参数传入。接下来，我们使用build_opener()方法创建了一个自定义的opener，并将HTTPCookieProcessor对象作为参数传入。最后，我们使用自定义的opener打开URL并获取响应。

通过这种方式，我们可以在opener中设置和管理Cookie，以实现对Cookie的处理和操作。

Cookielib

Cookielib模块的主要作用是提供可存储cookie的对象，以便于与urllib模块配合使用来访问Internet资源。它非常强大，我们可以利用该模块的CookieJar类的对象来捕获cookie并在后续连接请求时重新发送，比如可以实现模拟登录功能。

Cookielib模块主要提供了以下几个对象：

CookieJar：用于存储HTTP请求生成的cookie信息。
FileCookieJar：继承自CookieJar，可以将cookie信息保存到文件中。
MozillaCookieJar：继承自FileCookieJar，可以读取和保存Mozilla浏览器的cookie信息。
LWPCookieJar：继承自FileCookieJar，可以读取和保存libwww-perl库生成的cookie信息。

案例1：获取Cookie保存到变量

from urllib.request import HTTPCookieProcessor
from urllib.request import build_opener
from urllib.request import Request
from http.cookiejar import CookieJar
from urllib.parse import urlencode
#声明一个CookieJar对象实例来保存cookie
cookie = CookieJar()
#利用HTTPCookieProcessor对象来创建cookie处理器
cookiePro = HTTPCookieProcessor(cookie)
#通过handler来构建opener
opener = build_opener(cookiePro)
login_url = "http://www.sxt.cn/index/login/login"
header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36"}
fromdata = {
    "user": "17703181473",
    "password": "123456"
}
data = urlencode(fromdata).encode()
request = Request(login_url, headers=header, data=data)
response = opener.open(request)
info_url = 'http://www.sxt.cn/index/user.html'
request_info = Request(info_url)
response = opener.open(request_info)
html = response.read()
print(html.decode())

我们使用以上方法将cookie保存到变量中，然后打印出了cookie中的值，运行结果如下

以上程序的原理如下

创建一个带有cookie的opener，在访问登录的URL时，将登录后的cookie保存下来，然后利用这个cookie来访问其他网址。

案例2：cookie保存文件的读取

from urllib.request import build_opener, Request
from urllib.request import HTTPCookieProcessor
from http.cookiejar import MozillaCookieJar
from urllib.parse import urlencode


def get_cookie():
    # 请求头
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"}
    login_url = "http://www.sxt.cn/index/login/login.html"
    form_data = {
        "user": "17703181473",
        "password": "123456"
    }
    # 转换编码
    f_data = urlencode(form_data)
    req = Request(login_url, headers=headers, data=f_data.encode())
    # 创建保存可以序列化cookie的文件对象
    cookie = MozillaCookieJar("cookie.txt")
    # 构造可保存cookie的控制器
    c_handler = HTTPCookieProcessor(cookie)
    # 构造opener
    opener = build_opener(c_handler)
    # 发送请求 -- 登录成功 （用户名和密码 正确）
    opener.open(req)
    cookie.save(ignore_discard=True, ignore_expires=True)


def use_cookie():
    # 请求头
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36"}

    info_url = "http://www.sxt.cn/index/user.html"
    # 创建保存可以序列化cookie的文件对象
    cookie = MozillaCookieJar()
    # 加载cookie文件
    cookie.load("cookie.txt", ignore_discard=True, ignore_expires=True)
    # 构造可保存cookie的控制器
    c_handler = HTTPCookieProcessor(cookie)
    # 构造opener
    opener = build_opener(c_handler)
    # 构造访问个人页面请求
    req1 = Request(info_url, headers=headers)
    # 发送请求
    resp2 = opener.open(req1)
    # 打印信息
    print(resp2.read().decode())


if __name__ == '__main__':
    # get_cookie()
    use_cookie()