Python 爬虫的工具列表大全,再不收藏下次就找不到了(第二篇)

203 篇文章 15 订阅

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

以下文章来源于腾讯云 作者:沈唁

( 想要学习Python?Python学习交流群:1039649593,满足你的需求,资料都已经上传群文件流,可以自行下载!还有海量最新2020python学习资料。 )
在这里插入图片描述

队列

  • celery – 基于分布式消息传递的异步任务队列/作业队列。
  • huey – 小型多线程任务队列。
  • mrq – Mr. Queue – 使用 redis & Gevent 的 Python 分布式工作任务队列。
  • RQ – 基于 Redis 的轻量级任务队列管理器。
  • simpleq – 一个简单的,可无限扩展,基于 Amazon SQS 的队列。
  • python-gearman – Gearman 的 Python API。

云计算

  • picloud – 云端执行 Python 代码。
  • dominoup.com – 云端执行 R,Python 和 matlab 代码。

电子邮件

电子邮件解析库
  • flanker – 电子邮件地址和 Mime 解析库。
  • Talon – Mailgun 库用于提取消息的报价和签名。

网址和网络地址操作

解析/修改网址和网络地址库。
  • URL
  • furl – 一个小的 Python 库,使得操纵 URL 简单化。
  • purl – 一个简单的不可改变的 URL 以及一个干净的用于调试和操作的 API。
  • urllib.parse – 用于打破统一资源定位器(URL)的字符串在组件(寻址方案,网络位置,路径等)之间的隔断,为了结合组件到一个 URL 字符串,并将“相对 URL”转化为一个绝对 URL,称之为“基本 URL”。
  • tldextract – 从 URL 的注册域和子域中准确分离 TLD,使用公共后缀列表。
  • 网络地址
  • netaddr – 用于显示和操纵网络地址的 Python 库。

网页内容提取

提取网页内容的库。
  • HTML 页面的文本和元数据
  • newspaper – 用 Python 进行新闻提取、文章提取和内容策展。
  • html2text – 将 HTML 转为 Markdown 格式文本。
  • python-goose – HTML 内容/文章提取器。
  • lassie – 人性化的网页内容检索工具
  • micawber – 一个从网址中提取丰富内容的小库。
  • sumy -一个自动汇总文本文件和 HTML 网页的模块
  • Haul – 一个可扩展的图像爬虫。
  • python-readability – arc90 readability 工具的快速 Python 接口。
  • scrapely – 从 HTML 网页中提取结构化数据的库。给出了一些 Web 页面和数据提取的示例,scrapely 为所有类似的网页构建一个分析器。
视频
  • youtube-dl – 一个从 YouTube 下载视频的小命令行程序。
  • you-get – Python3 的 YouTube、优酷/ Niconico 视频下载器。
维基
  • WikiTeam – 下载和保存 wikis 的工具。

WebSocket

用于 WebSocket 的库。
  • Crossbar – 开源的应用消息传递路由器(Python 实现的用于 Autobahn 的 WebSocket 和 WAMP)。
  • AutobahnPython – 提供了 WebSocket 协议和 WAMP 协议的 Python 实现并且开源。
  • WebSocket-for-Python – Python 2 和 3 以及 PyPy 的 WebSocket 客户端和服务器库。

DNS 解析

  • dnsyo – 在全球超过 1500 个的 DNS 服务器上检查你的 DNS。
  • pycares – c-ares 的接口。c-ares 是进行 DNS 请求和异步名称决议的 C 语言库。

计算机视觉

  • OpenCV – 开源计算机视觉库。
  • SimpleCV – 用于照相机、图像处理、特征提取、格式转换的简介,可读性强的接口(基于 OpenCV)。
  • mahotas – 快速计算机图像处理算法(完全使用 C++ 实现),完全基于 numpy 的数组作为它的数据类型。

其他 Python 工具列表

  • awesome-python
  • pycrumbs
  • python-github-projects
  • python_reference
  • pythonidae
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值