爬虫
zhangyingchengqi
学无止境。
展开
-
python中requests库乱码问题
# 2. 引入 requests库import requestsresp=requests.get("http://www.baidu.com")print( resp ) # <Response [200]>#2. Response是一个响应的对象print( "结果:", resp.text )#3. 文本结果乱码的处理'''' 为什么不用 resp...原创 2020-03-13 16:01:59 · 343 阅读 · 0 评论 -
如何查看 App的appPackage和appActivity
前提:安装好Android的sdk环境.1. 在命令窗口中输入,adb logcat>D:/log.log,将android日志输入D盘下的 log.log文件2. 运行手机上app应用程序3. 打开输出的文件 log.log4. 搜索 Launcher 关键字. 结果能看到以下: 这个是我的手机上微信打开时的日志. I/ActivityMana...原创 2018-11-28 16:47:57 · 1580 阅读 · 0 评论 -
Appium服务关键字
Appium 服务关键字关键字 描述 实例 automationName 你想使用的自动化测试引擎 Appium (默认) 或 Selendroid platformName 你要测试的手机操作系统 iOS, Android, 或 FirefoxOS platformVersion 手机操作系统版本 例如: 7.1, 4.4 de...翻译 2018-12-02 09:46:06 · 220 阅读 · 0 评论 -
安装Appium, 问题及解决方案收集
1. 解决OPPO手机adb调试找不到设备(Win8系统)https://blog.csdn.net/yxq408576080/article/details/501263312. adb devices 连接不上设备问题的解决方法https://blog.csdn.net/lyl00ling/article/details/794232303. Windows7系统如何禁用驱动程序签名强...原创 2018-11-24 19:37:06 · 772 阅读 · 0 评论 -
mitmproxy 的资料(四)
github托管地址: https://github.com/mitmproxy/mitmproxy官网: https://mitmroxy.orgpython的api地址: https://pypi.python.org/pypi/mitmproxy文档: http://docs.mitmproxy.org下载地址: https://github.com/mitmproxy...原创 2018-11-22 16:41:26 · 303 阅读 · 0 评论 -
mitmproxy的五种代理模式(三)整理
mitmproxy俗称中间人攻击的神器,有篡改功能的代理,支持http通信与https通信,总共有五种代理模式。1、正向代理(regular proxy)启动时默认选择的模式是一个位于客户端和原始服务器(origin server)之间的服务器,为了从原始服务器取得内容,客户端向mitmproxy代理发送一个请求并指定目标(原始服务器),然后代理向原始服务器转交请求并将获得的内容返回给...原创 2018-11-22 16:37:01 · 4646 阅读 · 0 评论 -
mitmproxy的事件(二)
主题 修改request或者response内容介绍 mitmdump无交互界面的命令,与python脚本对接,来源于mitmproxy支持inline script,这里的script指的是python脚本,inline script提供了http、Websocket、tcp等各个时间点事件(events)的hook函数,如http中的request、r...原创 2018-11-22 16:34:47 · 671 阅读 · 0 评论 -
mitmproxy(一)整理
1. mitmproxy工程工具包,主要包含了3个组件 mitmproxy:拦截的http(s)记录控制台显示 【window不支持】 mitmdump:命令行接口,可以对接python脚本,通过脚本实现监听后的处理,可定制个人需求 mitmweb:web形式展示2. 环境 1.Python3.6及以上 (python -V查看版本) 2.更新pip(避免部分依...原创 2018-11-22 16:31:41 · 2287 阅读 · 0 评论 -
安装mitmproxy-ca-cert.pem的文件
安装一个mitmproxy-ca-cert.pem的文件. 1. 先将这个文件拷贝到android手机上.2. 以OPPO和一加五T为例来展示怎么安装.pem文件,其他手机都和这个差不多,基本都是在设置中找到,类似于 安全与隐私,这一项,然后从存储设备中安装。 ...原创 2018-11-21 17:20:04 · 2250 阅读 · 0 评论 -
tesserocr错误
Failed to init API, possibly an invalid tessdata path: 解决过程:先查看一下当前的tesserocr支持的 tesserocr版本. 查看以上代码的运行结果: 分析运行结果: 它有两个意思: 1是它支持的tesseract为3.05.01, 另一个意思为要在 c:\\ProgramData\\Anaconda3\\下...原创 2018-11-21 10:52:25 · 1068 阅读 · 0 评论 -
selenium中各种浏览器的详细配置
1. selenium中支持的浏览器对象browser=webdriver.Chrome()browser=webdriver.Firefox()browser=webdriver.Edge() # Microsoft Edgebrowser=webdriver.Safari()browser=webdriver.Android()browser=webdriver.Black...原创 2018-11-02 15:31:51 · 5603 阅读 · 0 评论 -
robots协议
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。 robots.txt文件是一个文本文件, 是一个协议而不是一个命令. 当爬虫访问一个站点时, 它会首先检查该站点根目录下是否存在robots.txt,如...原创 2018-10-24 19:13:46 · 2377 阅读 · 0 评论 -
代理服务器的基本原理(转)
我们在做爬虫的过程中经常会遇到这样的情况,最初爬虫正常运行,正常抓取数据,一切看起来都是那么美好,然而一杯茶的功夫可能就会出现错误,比如403 Forbidden,这时候打开网页一看,可能会看到“您的IP访问频率太高”这样的提示。出现这种现象的原因是网站采取了一些反爬虫措施。比如,服务器会检测某个IP在单位时间内的请求次数,如果超过了这个阈值,就会直接拒绝服务,返回一些错误信...转载 2018-10-15 09:26:32 · 1127 阅读 · 0 评论