python写爬虫代码，除了requests和beautifulsoup4还需要哪些库？【学习记录】

whoas123

已于 2023-04-07 23:49:01 修改

阅读量428

点赞数

分类专栏： Python学习文章标签： python 爬虫开发语言

于 2023-04-07 23:47:38 首次发布

本文链接：https://blog.csdn.net/whoas123/article/details/130022860

版权

Python学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Python写爬虫代码时，除了requests和beautifulsoup4，还有一些其他的库可以使用，以下是一些常用的库：

Scrapy：Scrapy是一个Python爬虫框架，它提供了强大的爬取工具和方便的数据处理功能，能够快速地编写高效的爬虫程序。
Selenium：Selenium是一个自动化测试工具，可以模拟浏览器行为，对于一些需要模拟登录、点击等交互操作的网站，Selenium是一个非常有用的工具。
PyQuery：PyQuery是一个类似于jQuery的库，可以用类似于CSS选择器的方式来操作HTML文档，非常方便。
lxml：lxml是一个Python的XML处理库，可以快速地解析XML文档，也可以用来解析HTML文档。
requests-html：requests-html是一个基于requests和lxml的库，可以方便地解析HTML文档，支持JavaScript渲染和CSS选择器。
pandas：pandas是一个Python的数据处理库，可以方便地进行数据清洗、整理和分析，对于爬虫程序中的数据处理非常有用。

安装方法：

在终端中输入 pip install 库名 ，如：

pip install scrapy

以下是导入以上库的代码示例：

import scrapy
from selenium import webdriver
from pyquery import PyQuery as pq
from lxml import etree
from requests_html import HTMLSession
import pandas as pd