网络爬虫之urllib库

db_zwm_2035

已于 2023-12-26 15:07:14 修改

阅读量1.3k

点赞数 20

文章标签：爬虫

于 2023-12-26 14:50:39 首次发布

本文链接：https://blog.csdn.net/zwkkkhhh/article/details/135221059

版权

前言：

一、urllib库简介

二、使用urllib.request获取网页内容

前言：

随着互联网的快速发展，网络数据已经成为我们获取信息、解决问题的重要来源。网络爬虫作为获取网络数据的重要工具，越来越受到人们的关注。Python作为一种简单易学、功能强大的编程语言，在网络爬虫领域也得到了广泛的应用。
在Python中，urllib库是一个用于处理URLs的强大工具。它提供了丰富的功能，可以帮助我们轻松地构建网络爬虫，获取网页内容，提取数据等。本文将详细介绍urllib库的使用方法和实际应用，帮助读者掌握网络爬虫的基本原理和技术。
通过本文的学习，您将了解到urllib库的基本概念、urlopen函数的使用、请求头部的设置、URL和查询参数的解析等方面的知识。

一、urllib库简介

urllib库是Python的标准库之一，用于处理URL相关的操作。它提供了各种函数和类，用于构建、解析、发送HTTP请求等任务。使用urllib库，您可以轻松地获取网页内容、发送POST请求、处理cookies等。

它包括：

urllib.request:请求模块
urllib.error:异常处理模块
urllib.parse:URL解析模块
urllib.robotparse:robots解析模型

二、使用urllib.request获取网页内容

首先，我们需要导入urllib.request模块。这个模块提供了打开和读取URL的函数和类。例如，我们可以使用urlopen函数打开一个URL，并读取其内容：

import urllib.request  
  
url = "http://www.example.com"  
response = urllib.request.urlopen(url)  
html = response.read()

在上述代码中，urlopen函数返回一个响应对象，我们可以调用其read方法来获取网页的HTML内

三、处理URL和请求头部

在发送HTTP请求时，您可能需要设置请求头部信息，如User-Agent、Cookie等。urllib库提供了Request类，允许您设置这些头部信息。同时，Request类还提供了其他功能，如设置URL参数、处理重定向等。下面是一个示例：

import urllib.request  
  
url = "http://www.example.com"  
headers = {"User-Agent": "Mozilla/5.0"}  
req = urllib.request.Request(url, headers=headers)  
response = urllib.request.urlopen(req)  
response.read()

四、解析URLs和查询参数

urllib库还提供了各种函数和类，用于解析URLs和查询参数。例如，urlparse函数可以将URL分解为各个组成部分，如协议、主机名、路径等。而parse_qs函数则用于解析查询字符串，将其转换为字典形式。这些功能在处理复杂的URL和构建请求时非常有用。

五、处理异常

网络请求可能会因为各种原因失败，例如URL不存在、网络连接问题等。因此，我们需要处理可能出现的异常。我们可以使用try/except语句来捕获和处理这些异常：

try:  
    response = urllib.request.urlopen(url)  
except urllib.error.URLError as e:  
    print(f"URL Error: {e.reason}")  
except urllib.error.HTTPError as e:  
    print(f"HTTP Error: {e.code} {e.reason}")  
else:  
    html = response.read()

六、示例

from urllib.request import Request, urlopen
from urllib.parse import urlencode

def main():
    jk = input("请输入需要抓取的贴吧名：")
    begin_page = int(input("请输入起始页: "))
    end_page = int(input("请输入结束页："))
    # 输入网址
    url = 'https://tieba.baidu.com/f?{}'
    tieba_spider(url, begin_page, end_page)


def tieba_spider(url, begin_page, end_page, jk=None):
    '''
    作用：贴吧爬虫调度器，负责组合处理每个页面的url
    url:贴吧url的前半部分
    begin_oage:起始页码
    end_page: 结束页
    '''
    for pn in range(begin_page, end_page + 1):
        a = {
        "pn" :(pn - 1) * 50,
        "kw" : jk
        }
        filename = "第" + str(pn) + "页.html"
        a = urlencode(a)
        print("正在保存" + filename)
        filewangjunkai_bytes=load_page(url.format(a))
        write_page(filename,filewangjunkai_bytes)


def load_page(url):
    '''
    作用:根据url发送请求，获取服务器响应文件
    url:需要爬取的url地址
    '''
    headers = {
        "User-Agent": 'Mozilla / 5.0(WindowsNT10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 80.0.3987.116Safari / 537.36'
    }

    request = Request(url, headers=headers)
    response = urlopen(request)
    response.read().decode()
    return response.read()
    # return urllib.request.urlopen(request).read()


def write_page(filename,filewangjinkai_bytes):
    '''
    作用：将HTML内容写入本地文件
    html:服务器响应文件内容
    '''
    with open(filename, "wb") as file:
        file.write(filewangjinkai_bytes)


if __name__ == '__main__':
    main()

七、总结

网络爬虫是获取和利用网页数据的重要工具。在Python中，urllib库是一个强大的工具，可以帮助我们轻松地构建简单的网络爬虫。通过使用urlopen函数，我们可以获取网页的内容，并使用try/except语句处理可能出现的异常。虽然urllib库本身不提供HTML解析功能，但我们可以结合其他库如BeautifulSoup来提取我们感兴趣的信息。
通过学习urllib库，我们可以深入了解网络爬虫的基本原理和工作方式。掌握了这些基础知识后，我们可以进一步学习更复杂的库和工具，如Scrapy和Selenium等，以创建更强大的网络爬虫。
在未来的工作中，网络爬虫的应用场景将越来越广泛。无论是数据挖掘、信息检索还是自动化处理，网络爬虫都发挥着重要作用。