Python爬虫有哪些库，分别怎么用

最新推荐文章于 2024-05-12 13:45:16 发布

小小卡拉眯

最新推荐文章于 2024-05-12 13:45:16 发布

阅读量2.6k

点赞数 1

分类专栏：爬虫小知识文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wq2008best/article/details/132848309

版权

爬虫小知识专栏收录该内容

122 篇文章

订阅专栏

目录

Python常用爬虫库

requests + BeautifulSoup

Python是一种非常流行的编程语言，因其易学易用和广泛的应用而受到开发者的喜爱。在Python中，有许多库可以用于爬虫程序的开发，这些库可以帮助我们快速地从互联网上抓取数据。本文将介绍一些常用的Python爬虫库及其用法。

Python常用爬虫库

Python的爬虫库非常丰富，以下是一些常用的库及其用法：

requests：用于发送HTTP请求，获取响应内容。用法：安装requests库后，导入库，使用get或post方法发送请求，接收响应对象，从中提取所需信息。
BeautifulSoup：用于解析HTML或XML文档，提取所需数据。用法：安装BeautifulSoup库后，导入库，将待解析的页面源码作为参数传入BeautifulSoup的构造函数中，使用选择器定位所需元素，使用属性或方法获取数据。
Scrapy：一个基于Twisted框架的爬虫框架，可用于大规模数据采集。用法：安装Scrapy框架后，创建Scrapy项目，编写Spider和Item Pipeline等组件，运行Scrapy命令进行数据采集和存储。
Selenium：用于模拟浏览器行为，动态获取网页数据。用法：安装Selenium库后，导入库，创建WebDriver对象，使用对象执行浏览器行为（如点击、输入等），获取动态生成的数据。
PyQuery：用于解析HTML或XML文档，与jQuery选择器类似。用法：安装PyQuery库后，导入库，将待解析的页面源码作为参数传入PyQuery的构造函数中，使用选择器定位所需元素，使用属性或方法获取数据。
Axios：用于发送HTTP请求，获取响应内容，支持Promise和async/await用法：安装Axios库后，导入库，使用get或post方法发送请求，接收响应对象，从中提取所需信息。
requests-html：基于requests库的扩展库，可解析HTML页面。用法：安装requests-html库后，导入库，使用get或post方法发送请求，接收响应对象，从中提取所需信息。
pyppeteer：用于模拟浏览器行为，动态获取网页数据，支持headless模式。用法：安装pyppeteer库后，导入库，创建Browser对象，使用对象创建Page对象，执行浏览器行为（如点击、输入等），获取动态生成的数据。

以上是一些常用的Python爬虫库及其用法，不同的库适用于不同的场景和需求。选择合适的库和方法可以大大提高数据采集的效率和准确性。

代码示例

requests + BeautifulSoup

import requests  
from bs4 import BeautifulSoup  
  
url = 'https://www.example.com'  
response = requests.get(url)  
soup = BeautifulSoup(response.text, 'html.parser')  
  
# 获取网页标题  
title = soup.title.string  
print('网页标题：', title)  
  
# 获取网页内容  
content = soup.p.string  
print('网页内容：', content)

Scrapy

import scrapy  
  
class ExampleSpider(scrapy.Spider):  
    name = 'example'  
    start_urls = ['https://www.example.com']  
  
    def parse(self, response):  
        # 提取所需数据  
        title = response.css('title::text').get()  
        content = response.css('p::text').get()  
        yield {'title': title, 'content': content}

Selenium

from selenium import webdriver  
  
# 初始化WebDriver，使用Chrome浏览器  
driver = webdriver.Chrome()  
  
# 打开指定URL  
driver.get('https://www.example.com')  
  
# 定位元素并输入文本  
element = driver.find_element_by_id('username')  
element.send_keys('myusername')  
  
# 定位元素并点击  
element = driver.find_element_by_id('password')  
element.send_keys('mypassword')  
element.submit()  
  
# 等待页面加载完成  
driver.implicitly_wait(10)  
  
# 定位元素并检查文本内容  
element = driver.find_element_by_id('welcome-message')  
assert 'Welcome, myusername!' in element.text  
  
# 关闭浏览器窗口  
driver.quit()

PyQuery

from pyquery import PyQuery as pq  
  
# 加载HTML文档  
html = """  
<html>  
<head>  
    <title>Example</title>  
</head>  
<body>  
    <div id="content">  
        <h1>Hello, World!</h1>  
        <p>This is a paragraph.</p>  
        <ul>  
            <li>Item 1</li>  
            <li>Item 2</li>  
            <li>Item 3</li>  
        </ul>  
    </div>  
</body>  
</html>  
"""  
  
# 解析HTML文档  
doc = pq(html)  
  
# 选择元素  
title = doc('title').text()  
heading = doc('#content h1').text()  
paragraph = doc('#content p').text()  
items = doc('#content ul li').texts()  
  
# 打印结果  
print(title)       # Example  
print(heading)     # Hello, World!  
print(paragraph)   # This is a paragraph.  
print(items)       # ['Item 1', 'Item 2', 'Item 3']

Axios

Axios 是一个基于 Promise 的 HTTP 客户端，可以在浏览器和 Node.js 中使用。以下是一个简单的 Axios 代码示例：

const axios = require('axios');  
  
axios.get('https://api.example.com/data')  
  .then(function (response) {  
    console.log(response.data);  
  })  
  .catch(function (error) {  
    console.log(error);  
  });

这个示例使用 Axios 发起一个 GET 请求，访问 https://api.example.com/data，并使用 then 方法处理成功响应，使用 catch 方法处理错误。如果请求成功，response.data 将包含响应数据。如果发生错误，error 对象将包含错误信息。你可以使用 Axios 发起其他类型的 HTTP 请求，例如 POST、PUT 和 DELETE，只需要更改请求方法即可：

axios.post('https://api.example.com/data', {  
    name: 'John Doe',  
    email: 'john@example.com'  
  })  
  .then(function (response) {  
    console.log(response.data);  
  })  
  .catch(function (error) {  
    console.log(error);  
  });

这个示例使用 Axios 发起一个 POST 请求，访问 https://api.example.com/data，并将一个包含 name 和 email 属性的对象作为请求主体发送。

requests-html

from requests_html import HTMLSession  
  
# 创建一个 HTMLSession 实例  
session = HTMLSession()  
  
# 使用 get 方法获取一个网页  
response = session.get('https://example.com')  
  
# 使用 BeautifulSoup 来解析网页内容  
soup = response.html  
  
# 输出页面的标题  
print(soup.title)  
  
# 输出所有的段落标签 <p>  
for p in soup.find_all('p'):  
    print(p.text)

pyppeteer

import asyncio  
from pyppeteer import launch  
  
async def main():  
    # 启动浏览器  
    browser = await launch()  
    page = await browser.newPage()  
  
    # 打开网页  
    await page.goto('http://example.com')  
  
    # 截图  
    await page.screenshot({'path': 'example.png'})  
  
    # 关闭浏览器  
    await browser.close()  
  
asyncio.get_event_loop().run_until_complete(main())

总结

以上是一些常用的Python爬虫库及其用法，每个库都有其独特的特点和优势，选择合适的库取决于具体的应用场景和需求。在编写爬虫程序时，还需要注意一些道德和法律规范，以确保我们的爬虫程序不会侵犯他人的隐私和权益。

普通网友 CSDN认证博客专家 CSDN认证企业博客

码龄17年

213: 原创

-: 周排名

-: 总排名

41万+: 访问

: 等级

3821: 积分

1063: 粉丝

1367: 获赞

61: 评论

1628: 收藏

私信

关注

热门文章

分类专栏

最新评论

IP代理与加速器：理解它们的区别与共同点
2301_79244463: 大哥怎么联系你
怎么使用selenium设置代理ip访问网站
并安115: 请问你的问题解决了吗，我也遇到了，用到是egde的驱动
http请求头部（header）详解
谁学逆向工程: 好家伙，怪不得有时候看某些网站的时候，打开F12，看见的内容又像又不完全一样
【实战】Python爬虫之代理使用详解
北风之神c: 总结的很全面的爬虫，写得赞，博主用心了。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c8.html ，只需要@boost一行代码，加到任意新/旧爬虫项目就又强又自由又简单。 funboost 分布式函数调度框架，定位于调度用户的任何函数，只要用户在函数里面写爬虫代码，就可以分布式调度爬虫，并且对爬虫函数施加30种控制功能,例如 qps恒定任何时候随意关机重启代码消息万无一失确认消费非常简单的开启多进程叠加线程/协程,这些强大的功能绝大部分爬虫框架还做不到。此框架如果用于爬虫，不管从任何方面比较可以领先scrapy 20年，也比任意写的爬虫框架领先10年。普通爬虫框架一般就设计为url请求调度框架，url怎么请求都是被框内置架束缚死了，所以有些奇葩独特的想法在那种框架里面难以实现，用户需要非常之精通框架本身然后改造框架才能达到随心所欲的驾驭的目的。普通的爬虫框架与用户手写requests 请求解析存储，在流程逻辑上是严重互斥的，要改造成使用那种框架改造需要大改特改。而此框架是函数调度框架，函数里面用户可以随意写一切任意自由想法，天生不会有任何束缚。使用funboost爬虫，与用户使用别的爬虫框架或者无框架用户手写多线程爬虫相比， funboost都代码更少更强更简单更自由。 pip install funboost 或者是直接使用 pip install boost_spider (powerd by funboost ，boost_spider比funboost增加了更加专门的针对爬虫请求和解析和存储） https://github.com/ydf0509/b
http请求头部（header）详解
是谢添啊: 当然可以自定义。这也是说 http 具有扩展性的原因之一。http 协议一方面可以通过扩展头部、方法等方式支持新的功能，另一方面，由于 http 协议工作在应用层，其下层是可以灵活变换的，例如 https 就是在传输层与应用层之间添加了一层 ssl/tls 安全传输层，又比如 http/3.0 以前使用 tcp 作为传输层协议，而 http/3.0 实现可靠传输的 quic 协议在传输层使用的 udp 协议。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。