爬虫
文章平均质量分 63
Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 [1]
Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,
风雨「83」
木秀于林,风必崔之。出外言行,慎之慎之!
展开
-
selenium爬虫如何防止被浏览器特征抓取反爬,undetected_chromedriver他来了。
undetected_chromedriver 可以防止浏览器特征被识别,并且可以根据浏览器版本自动下载驱动。安装方式:pip install git+https://github.com/ultrafunkamsterdam/undetected-chromedriver.git一个简单的例子 ,懂车帝对selenium反爬挺厉害,通过undetected_chromedriver可轻松搞定。import undetected_chromedriver as ucimport ss原创 2021-07-05 08:27:25 · 16654 阅读 · 36 评论 -
mitmproxy 爬虫抓包神奇
mitmproxy是一个支持HTTP和HTTPS的抓包程序,有类似Fiddler、Charles的功能,只不过它是一个控制台的形式操作。mitmproxy还有两个关联组件。一个是mitmdump,它是mitmproxy的命令行接口,利用它我们可以对接Python脚本,用Python实现监听后的处理。另一个是mitmweb,它是一个Web程序,通过它我们可以清楚观察mitmproxy捕获的请求。一、准备工作请确保已经正确安装好了mitmproxy,并且手机和PC处于同一个局域网下,同时配置好了mi原创 2021-01-22 08:34:30 · 1356 阅读 · 0 评论 -
python3 uiautomator2 页面滚动、滑动操作
一、滚动操作:scroll1、含义理解:滚动页面,与坐标无关系2、源码示例:3、实际代码演示:# 垂直滚动到页面顶部/横向滚动到最左侧d(scrollable=True).scroll.toBeginning()d(scrollable=True).scroll.horiz.toBeginning()# 垂直滚动到页面最底部/横向滚动到最右侧d(scrollable=True).scroll.toEnd()d(scrollable=True).scroll.ho..原创 2020-12-08 09:30:48 · 11302 阅读 · 0 评论 -
mac下charles配置与使用
简介正常情况下,Chrome DevTool已经满足了日常web开发的需求,但是有的特性:编辑request参数、重定向request请求资源、编辑response数据,使用ChromeDevTool就感觉力不从心啦,而且查看和调试移动端资源时候Chrome也并不好用。使用charles可以做这些事情:抓取 http 和 https 的请求和响应,这是最常用的。 重发网络请求,方便后端调试。 修改网络请求参数(客户端向服务器发送的时候,可以修改后再转发出去)。 网络请求的截获和动态修改。原创 2020-08-12 16:34:10 · 1080 阅读 · 0 评论 -
mitmproxy环境搭建与证书安装
mitmproxy还有两个关联组件,一个是mitmdump,它是mitmproxy的命令行接口,利用它可以对接Python脚本,实现监听后的处理;另一个是mitmweb,它是一个Web程序,通过它以清楚地观察到mitmproxy捕获的请求。一、mitmproxy安装1.安装mitmproxy.GitHub:https://github.com/mitmproxy/mitmproxy2.查看本机IP,并启动mitmdump.启动之后,可以看到:Web server listening .原创 2020-06-04 11:20:28 · 26043 阅读 · 8 评论 -
uiautomator2+mitmproxy+weditor+Python3抖音数据抓取
一、uiautomator2UiAutomator是Google提供的用来做安卓自动化测试的一个Java库,基于Accessibility服务。功能很强,可以对第三方App进行测试,获取屏幕上任意一个APP的任意一个控件属性,并对其进行任意操作,但有两个缺点:1. 测试脚本只能使用Java语言 2. 测试脚本要打包成jar或者apk包上传到设备上才能运行。我们希望测试逻辑能够用Python编写,能够在电脑上运行的时候就控制手机。这里要非常感谢 Xiaocong He (@xiaocong),他将这个原创 2020-06-02 11:15:46 · 14786 阅读 · 0 评论 -
爬虫验证码识别,汉字点选,倒立文字识别,英文字母数字识别
http://www.chaojiying.com/about.html 这个可以识别汉字点选验证码原创 2020-04-27 10:09:04 · 21074 阅读 · 1 评论 -
selemiun bilibi自动登录,鼠标拖动验证码识别。
# -*- coding: utf-8 -*- # @Time : 2020/3/27 7:02 AM# @Author : wywinstonwy# #@desc:from selenium.webdriver.chrome.options import Optionsfrom selenium import webdriverfrom selenium.webdriver im...原创 2020-04-09 08:21:50 · 31028 阅读 · 0 评论 -
scrapyd部署后通过命令:url http://localhost:6800/cancel.json -d project=xx 无法快速终端任务处理办法
scrapy在运行爬虫的时候通过curl http://localhost:6800/cancel.json -d project=qctt -d job=a22dde1272ef11eaa2e0784f43945ed3 并不能把及时暂停爬虫。然后依然能看到方法1:scrapyd上可以查看到pid,可以在服务器上用kill pid杀掉进程,如果kill pid失败,可以用kill -...原创 2020-04-01 08:33:17 · 32549 阅读 · 0 评论 -
scrapyd,scrapy部署
/Library/Frameworks/Python.framework/Versions/3.7/bin/scrapyd-deploy:23: ScrapyDeprecationWarning: Module scrapy.utils.http is deprecated, Please import from w3lib.http instead.from scrapy.utils.http...原创 2020-03-31 08:07:43 · 33298 阅读 · 0 评论 -
chromedriver下载地址及Mac下安装方法,chrome历史版本下载地址,chrome79,chrome78,chrome77,
chromedriver 配合 Selenium 来爬虫下载地址:http://chromedriver.storage.googleapis.com/index.html原创 2020-03-25 09:32:14 · 13800 阅读 · 0 评论