python爬虫
python爬虫
ch_atu
这个作者很懒,什么都没留下…
展开
-
python 请求头大全
【代码】python 请求头大全。原创 2023-03-30 16:28:17 · 365 阅读 · 0 评论 -
python 爬虫使用代理
【代码】python 爬虫使用代理。原创 2023-03-30 16:27:17 · 457 阅读 · 0 评论 -
移动端爬虫——appium的基本使用
platformVersion:系统版本(打开模拟器设置,从关于获取系统的版本)打开cmd,输入adb shell,回车,进入adb shell 终端。deviceName:手机型号(打开模拟器设置,从关于获取手机型号)按如下配置完成后,点击启动会话后,即可启动appium。appActivity:app的包名+app的进程名。platformName:系统名称。appPackage:app的包名。原创 2022-10-05 19:24:20 · 1699 阅读 · 1 评论 -
windows安装fiddler
打开tools->options,找到connections,配置端口,并配置允许远程电脑连接。注:没有的话请自行科学上网获取。原创 2022-10-03 17:43:36 · 447 阅读 · 0 评论 -
fiddler中文乱码解决
4、右键新建,选字符串值 加上HeaderEncoding 然后值输入 UTF-8。2、输入regedit +回车+是。1、windows按钮+R。5.重启fiddler。原创 2022-10-03 17:29:18 · 762 阅读 · 0 评论 -
scrapy实现增量式爬虫
步骤1.利用全站爬虫:CrawlSpider2.对爬取过的数据进行存储:如redis的set连接redis,在spider文件中使用sadd方法尝试进行存储返回1:没有爬取过,进行后续操作返回0:爬取过原创 2021-04-16 17:10:59 · 186 阅读 · 0 评论 -
scrapy进行分布式爬虫
一、分布式爬虫1.概念:我们需要搭建一个分布式的机群,让其对一组资源进行分布联合爬取。2.作用:提升爬取数据的效率3.依赖:pip install scrapy-redisscrapy-redis作用:可以给原生的scrapy框架提供可以被共享的管道和调度器二、实现流程1.创建一个工程:scrapy startproject ProjectName2.进入工程目录下:cd ProjectName3.创建一个基于CrawlSpider的爬虫文件:scrapy gensp原创 2021-04-16 15:49:19 · 404 阅读 · 0 评论 -
scrapy框架
简介高性能的持久化存储,异步的数据下载,高性能的数据解析,分布式依赖:pip install scrapy基本使用创建工程:scrapy startproject ProjectName进入到工程目录中:cd ProjectName创建爬虫文件:scrapy genspider SpiderName SpiderUrl执行工程:scrapy crawl spiderName五大核心组件引擎(Scrapy)用来处理整个系统的数据流处理, 触发事务(框架核心)调度器(Sc原创 2021-04-16 14:25:53 · 135 阅读 · 0 评论 -
scrapy图片管道类重定向301问题
默认情况下,媒体管道会忽略重定向,即,对媒体文件URL请求的HTTP重定向将意味着媒体下载被视为失败。要处理媒体重定向,请将此设置设置为True:进入settings.pyMEDIA_ALLOW_REDIRECTS = True原创 2021-04-15 19:32:59 · 226 阅读 · 0 评论 -
requests模块中Session对象的使用
一、cookie简介1.简介用来让服务器端记录客户端的相关状态。2.cookie值的来源是哪里?模拟登录post请求后,由服务器端创建。二、Session会话对象:1.作用1.可以进行请求的发送。2.如果请求过程中产生了cookie,则该cookie会被自动存储/携带在该session对象中。2.创建一个session对象session = requests.Session()使用session对象进行模拟登录post请求的发送(cookie就会被存储在session中)原创 2021-04-14 17:23:30 · 873 阅读 · 0 评论 -
验证码识别
一、第三方工具1.图鉴官网链接:http://www.ttshitu.com2.使用import base64import jsonimport requests# 一、图片文字类型(默认 3 数英混合):# 1 : 纯数字# 1001:纯数字2# 2 : 纯英文# 1002:纯英文2# 3 : 数英混合# 1003:数英混合2# 4 : 闪动GIF# 7 : 无感学习(独家)# 11 : 计算题# 1005: 快速计算题# 16 : 汉字# 32 : 通用文字识别原创 2021-04-14 16:14:56 · 155 阅读 · 0 评论 -
slenium
一、selenium1.依赖:pip install selenium2.下载一个浏览器的驱动程序(谷歌浏览器chromedriver)下载路径:http://chromedriver.storage.googleapis.com/index.html下载的chromdriver也要跟浏览器的版本对应3.实例化一个浏览器对象:driver = webdriver.Chrome(r’./chromedriver’)4.WebDriver系列方法5.WebElement系列方法...原创 2021-04-14 11:18:04 · 106 阅读 · 0 评论 -
Selenium启动Chrome时配置选项详解
1.示例from selenium.webdriver.chrome.options import Options<br/>#实现无可视化界面的操作options = Options()options.add_argument('--headless')options.add_argument('--disable-gpu')<br/>#实现规避检测options.add_experimental_option('excludeSwitches', ['enable-a转载 2021-04-14 10:24:21 · 1338 阅读 · 0 评论 -
数据解析(xpath)
from lxml import etreetree = etree.parse(本地html的源码数据)tree = etree.HTML(爬取的源码数据page_text )xpath(xpath表达式)1.通过xpath()找到的标签对象仍然有xpath()方法,不过最开始的 / 应该换成 ./(表示从当前标签开始)2.xpath()参数中,表达式之间支持 |(或) 运算符/:表示一个层级//:表示两个层级属性定位://div(@class = ’xxx‘)索引定位://div.原创 2021-04-10 12:04:17 · 153 阅读 · 1 评论 -
聚焦爬虫(bs4)
bs4解析from bs4 import BeautifulSoupsoup = BeautifulSoup(xxx,‘lxml’)BeautifulSoup常用的属性和方法:tagName:返回的是html中第一次出现的tagName标签,是一个标签对象,标签对象也有属性tagNamefind(‘tagName’,class_ = ’xxx‘) - 属性定位find_all(‘tagName’) - 返回符合要求的所有tagName,返回的是一个列表select(‘某种选择原创 2021-04-10 11:40:59 · 329 阅读 · 0 评论 -
聚焦爬虫(正则解析)
正则解析:import rere.findall(正则表达式,网页源码数据,re.S)import requestsimport reimport osfrom pprint import pprint# 需求:爬取糗事百科中糗图板块下所有的糗图图片if __name__ == "__main__": # 创建一个文件夹,保存所有的图片 if not os.path.exists('./qiutuLibs'): os.mkdir('./qiutuLibs')原创 2021-04-10 11:11:47 · 168 阅读 · 2 评论 -
通用爬虫
有些数据是ajax在后台发起的,要查找它的url需要使用抓包工具进行抓包,查找发送的url和请求参数,并查看相应数据,确认判断是否正确一、get请求# 发起请求reponse = requests.get(url = url,params = params, headers = headers)# 获取响应数据page_text = response.text# 持久化存储with open(‘xxx.html’,‘w',encoding = ‘utf-8’) as fp: fp.原创 2021-04-10 10:51:10 · 100 阅读 · 0 评论