Python爬虫之常用模块

最新推荐文章于 2023-03-24 17:59:41 发布

yolo2016

最新推荐文章于 2023-03-24 17:59:41 发布

阅读量216

点赞数

分类专栏： Python 文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yolo2016/article/details/129432354

版权

Python 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

Python爬虫之常用模块

urlencode
pyquery
jsonpath
xpath
scrapy
ProxyPool
- 检验
参考

urlencode

urlencode
# 对字典进行URL编码
# https://blog.csdn.net/weixin_43411585/article/details/88854544

pyquery

pyquery 
# pyquery 是类型jquery 的一个专供python使用的html解析的库
# https://www.cnblogs.com/gj5379/p/8514535.html
# 标签 
'''
from pyquery import PyQuery as pq
with open("index.html", "r") as f:
    contents = f.read()
    doc = pq(contents)
    text = doc("h2").text()
    print(text)
'''

# 属性
# https://geek-docs.com/python/python-tutorial/python-pyquery.html#ftoc-heading-1

jsonpath

jsonPaht
# https://blog.csdn.net/nd211314555/article/details/88426529

xpath

xpath
 https:/www.bilibili.com/h5/note-app/view?cvid=17158089&pagefrom=comment

scrapy

#Scrapy，Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。
#Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试.
# https://blog.csdn.net/ck784101777/article/details/104468780

ProxyPool

检验

#!/bin/bash

rm -rf ./log*/*

redis-cli -h 192.168.3.13 -p 6379  ZRANGE proxies:universal 0  -1 >pool

for i in $(cat pool)
do
{
        cmd="curl -s -o /dev/null --connect-timeout 3  -w %{http_code} --proxy  $i https://www.youtube.com/"
        code=`$cmd`
        if [[ $code == "200" ]] ; then
                echo " $i ---> SUCCESS " | tee ./log2/${i}_proxy_can_access_youtube
        else
                echo " $i ---> Failure "
       fi
}&
done

参考

Window下Redis的安装和部署详细图文教程（Redis的安装和可视化工具的使用）
通过curl获取HTTP状态返回码

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python爬虫之常用模块

【代码】Python爬虫之常用模块。
复制链接

扫一扫

专栏目录

yolo2016 CSDN认证博客专家 CSDN认证企业博客

码龄8年

95: 原创

8万+: 周排名

3万+: 总排名

70万+: 访问

: 等级

1380: 积分

94: 粉丝

183: 获赞

17: 评论

399: 收藏

私信

关注

热门文章

分类专栏

DevOps 4篇
Django 3篇
云原生 10篇
HPC 1篇
存储 2篇
自动化 5篇
监控 2篇
服务与应用 11篇
数据库 16篇
操作系统 26篇
网络 5篇
Python 17篇
ITIL 1篇
PMP 1篇
Ai 阅读 4篇

最新评论

IT运维知识图谱
研途可达: 谢谢分享，你是大善人，好人一生平安
磁盘分区以及MBR与GPT
普通网友: 这篇文章是优质之作，内容充实，结构明晰，语言流畅且通俗易懂，适合广大读者阅读。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
磁盘分区以及MBR与GPT
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/618538741。
python中常用数据库模型
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
Python实现print输出至日志文件
qifengr: 只有文件运行完才统一写入日志，debug的时候不能一行一行写入日志是什么原因，请教一下作者

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

yolo2016 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。