Python爬虫面试：requests、BeautifulSoup与Scrapy详解

最新推荐文章于 2024-09-13 20:10:53 发布

Jimaks

最新推荐文章于 2024-09-13 20:10:53 发布

阅读量754

点赞数 14

分类专栏： python 大数据后端文章标签： python 爬虫面试

本文链接：https://blog.csdn.net/zevjay/article/details/138075652

版权

后端同时被 3 个专栏收录

243 篇文章 2 订阅

订阅专栏

大数据

59 篇文章 0 订阅

订阅专栏

python

36 篇文章 1 订阅

订阅专栏

在Python爬虫开发的面试过程中，对requests、BeautifulSoup与Scrapy这三个核心库的理解和应用能力是面试官重点考察的内容。本篇文章将深入浅出地解析这三个工具，探讨面试中常见的问题、易错点及应对策略，并通过代码示例进一步加深理解。
在这里插入图片描述

1. requests：网络请求库

常见问题：

如何处理HTTP状态码异常？
如何处理代理设置、cookies管理及session维护？
如何实现请求重试与超时控制？

易错点与避免策略：

忽略异常处理：务必对requests.get()等方法捕获requests.exceptions.RequestException，确保程序在遇到网络问题时能优雅退出。
忽视响应体内容：在检查HTTP状态码的同时，应关注响应的text或json()属性，以确保数据获取成功。
过度依赖默认配置：根据实际需求调整超时时间、重试次数等参数，避免因网络环境变化导致爬取失败。

代码示例：

python
import requests
from requests.adapters import HTTPAdapter
from requests.packages.urllib3.util.retry import Retry

def fetch_data(url, retries=3, backoff_factor=0.5):
    session = requests.Session()
    retry_strategy = Retry(
        total=retries,
        status_forcelist=[429, 500, 502, 503, 504],
        method_whitelist=["GET", "POST"],
        backoff_factor=backoff_factor
    )
    adapter = HTTPAdapter(max_retries=retry_strategy)
    session.mount("http://", adapter)
    session.mount("https://", adapter)

    try:
        response = session.get(url, timeout=10)
        response.raise_for_status()  # Raise for non-2xx status codes
        return response.json()  # Assuming JSON response
    except requests.exceptions.RequestException as e:
        print(f"Request failed: {e}")
        return None

2. BeautifulSoup：HTML解析库

常见问题：

选择器使用不当：CSS选择器、XPath选择器的灵活运用。
处理动态加载内容：识别并处理JavaScript渲染的页面。
解析效率优化：合理使用lxml作为解析器，避免不必要的全文搜索。

易错点与避免策略：

过度依赖单一选择器：了解并熟练使用多种选择器（如tag、class、id、属性等）组合查询，提高定位准确度。
忽视网页结构变化：编写健壮的解析逻辑，对可能出现的DOM结构变化有所预见和应对。
忽视编码问题：明确指定或自动检测网页编码，避免因编码错误导致的乱码问题。

代码示例：

python
from bs4 import BeautifulSoup
import requests

def parse_html(html):
    soup = BeautifulSoup(html, 'lxml')  # 使用lxml解析器提高效率

    title = soup.find('title').get_text().strip()  # 获取页面标题
    article_links = [a['href'] for a in soup.select('.article-list a')]  # 使用CSS选择器提取文章链接

    return title, article_links

3. Scrapy：爬虫框架

常见问题：

项目架构理解：对Spider、Item、Pipeline、Middleware等组件的理解与配置。
数据存储方式：对接数据库（如MySQL、MongoDB）、文件（如CSV、JSON）、API等。
分布式爬虫与爬虫调度：Scrapy-Redis等中间件的使用。

易错点与避免策略：

忽视爬虫规则定义：清晰定义Spider的start_requests、parse等方法，确保爬取逻辑正确。
忽视数据清洗与验证：在Pipeline中进行必要的数据清洗、去重与格式化，确保入库数据质量。
忽视爬虫速度与效率：合理设置下载延迟（DOWNLOAD_DELAY）、并发数（CONCURRENT_REQUESTS_PER_DOMAIN）等参数，遵守网站robots.txt规则，避免被封禁。

代码示例：

python
import scrapy

class ExampleSpider(scrapy.Spider):
    name = 'example'
    start_urls = ['https://example.com/articles']

    def parse(self, response):
        for article in response.css('.article'):
            title = article.css('.article-title::text').get()
            author = article.css('.article-author::text').get()
            link = article.css('.article-link::attr(href)').get()

            yield {
                'title': title,
                'author': author,
                'link': response.urljoin(link),  # 正确处理相对链接
            }

        next_page = response.css('.pagination a.next::attr(href)').get()
        if next_page is not None:
            yield response.follow(next_page, self.parse)