爬虫_风雨「83」的博客-CSDN博客

爬虫

关注

文章平均质量分 63

Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。 [1] Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，

关注数：文章数：11 文章阅读量：202963 文章收藏量：133

作者: 风雨「83」

木秀于林，风必崔之。出外言行，慎之慎之！

展开

selenium爬虫如何防止被浏览器特征抓取反爬，undetected_chromedriver他来了。

undetected_chromedriver 可以防止浏览器特征被识别，并且可以根据浏览器版本自动下载驱动。安装方式：pip install git+https://github.com/ultrafunkamsterdam/undetected-chromedriver.git一个简单的例子 ,懂车帝对selenium反爬挺厉害，通过undetected_chromedriver可轻松搞定。import undetected_chromedriver as ucimport ss

原创 2021-07-05 08:27:25 · 16654 阅读 · 36 评论
mitmproxy 爬虫抓包神奇

mitmproxy是一个支持HTTP和HTTPS的抓包程序，有类似Fiddler、Charles的功能，只不过它是一个控制台的形式操作。mitmproxy还有两个关联组件。一个是mitmdump，它是mitmproxy的命令行接口，利用它我们可以对接Python脚本，用Python实现监听后的处理。另一个是mitmweb，它是一个Web程序，通过它我们可以清楚观察mitmproxy捕获的请求。一、准备工作请确保已经正确安装好了mitmproxy，并且手机和PC处于同一个局域网下，同时配置好了mi

原创 2021-01-22 08:34:30 · 1356 阅读 · 0 评论
python3 uiautomator2 页面滚动、滑动操作

一、滚动操作：scroll1、含义理解：滚动页面，与坐标无关系2、源码示例：3、实际代码演示：# 垂直滚动到页面顶部/横向滚动到最左侧d(scrollable=True).scroll.toBeginning()d(scrollable=True).scroll.horiz.toBeginning()# 垂直滚动到页面最底部/横向滚动到最右侧d(scrollable=True).scroll.toEnd()d(scrollable=True).scroll.ho..

原创 2020-12-08 09:30:48 · 11302 阅读 · 0 评论
mac下charles配置与使用

简介正常情况下，Chrome DevTool已经满足了日常web开发的需求，但是有的特性：编辑request参数、重定向request请求资源、编辑response数据，使用ChromeDevTool就感觉力不从心啦，而且查看和调试移动端资源时候Chrome也并不好用。使用charles可以做这些事情:抓取 http 和 https 的请求和响应，这是最常用的。重发网络请求，方便后端调试。修改网络请求参数（客户端向服务器发送的时候，可以修改后再转发出去）。网络请求的截获和动态修改。

原创 2020-08-12 16:34:10 · 1080 阅读 · 0 评论
mitmproxy环境搭建与证书安装

mitmproxy还有两个关联组件，一个是mitmdump，它是mitmproxy的命令行接口，利用它可以对接Python脚本，实现监听后的处理；另一个是mitmweb，它是一个Web程序，通过它以清楚地观察到mitmproxy捕获的请求。一、mitmproxy安装1.安装mitmproxy.GitHub：https://github.com/mitmproxy/mitmproxy2.查看本机IP，并启动mitmdump.启动之后，可以看到：Web server listening .

原创 2020-06-04 11:20:28 · 26043 阅读 · 8 评论
uiautomator2+mitmproxy+weditor+Python3抖音数据抓取

一、uiautomator2UiAutomator是Google提供的用来做安卓自动化测试的一个Java库，基于Accessibility服务。功能很强，可以对第三方App进行测试，获取屏幕上任意一个APP的任意一个控件属性，并对其进行任意操作，但有两个缺点：1. 测试脚本只能使用Java语言 2. 测试脚本要打包成jar或者apk包上传到设备上才能运行。我们希望测试逻辑能够用Python编写，能够在电脑上运行的时候就控制手机。这里要非常感谢 Xiaocong He (@xiaocong)，他将这个

原创 2020-06-02 11:15:46 · 14786 阅读 · 0 评论
爬虫验证码识别,汉字点选，倒立文字识别，英文字母数字识别

http://www.chaojiying.com/about.html 这个可以识别汉字点选验证码

原创 2020-04-27 10:09:04 · 21074 阅读 · 1 评论
selemiun bilibi自动登录，鼠标拖动验证码识别。

# -*- coding: utf-8 -*- # @Time : 2020/3/27 7:02 AM# @Author : wywinstonwy# #@desc:from selenium.webdriver.chrome.options import Optionsfrom selenium import webdriverfrom selenium.webdriver im...

原创 2020-04-09 08:21:50 · 31028 阅读 · 0 评论
scrapyd部署后通过命令：url http://localhost:6800/cancel.json -d project=xx 无法快速终端任务处理办法

scrapy在运行爬虫的时候通过curl http://localhost:6800/cancel.json -d project=qctt -d job=a22dde1272ef11eaa2e0784f43945ed3 并不能把及时暂停爬虫。然后依然能看到方法1：scrapyd上可以查看到pid，可以在服务器上用kill pid杀掉进程，如果kill pid失败，可以用kill -...

原创 2020-04-01 08:33:17 · 32549 阅读 · 0 评论
scrapyd，scrapy部署

/Library/Frameworks/Python.framework/Versions/3.7/bin/scrapyd-deploy:23: ScrapyDeprecationWarning: Module scrapy.utils.http is deprecated, Please import from w3lib.http instead.from scrapy.utils.http...

原创 2020-03-31 08:07:43 · 33298 阅读 · 0 评论
chromedriver下载地址及Mac下安装方法，chrome历史版本下载地址，chrome79,chrome78,chrome77,

chromedriver 配合 Selenium 来爬虫下载地址：http://chromedriver.storage.googleapis.com/index.html

原创 2020-03-25 09:32:14 · 13800 阅读 · 0 评论

爬虫

作者: 风雨「83」

selenium爬虫如何防止被浏览器特征抓取反爬，undetected_chromedriver他来了。

mitmproxy 爬虫抓包神奇

python3 uiautomator2 页面滚动、滑动操作

mac下charles配置与使用

mitmproxy环境搭建与证书安装

uiautomator2+mitmproxy+weditor+Python3抖音数据抓取

爬虫验证码识别,汉字点选，倒立文字识别，英文字母数字识别

selemiun bilibi自动登录，鼠标拖动验证码识别。

scrapyd部署后通过命令：url http://localhost:6800/cancel.json -d project=xx 无法快速终端任务处理办法

scrapyd，scrapy部署

chromedriver下载地址及Mac下安装方法，chrome历史版本下载地址，chrome79,chrome78,chrome77,