python爬虫
星星在线
这个作者很懒,什么都没留下…
展开
-
使用Airtest薅短视频的羊毛
Airtest是网易出品的一款基于图像识别和poco控件识别的一款UI自动化测试工具。Airtest的框架是网易团队自己开发的一个图像识别框架,这个框架的祖宗就是一种新颖的图形脚本语言Sikuli。Sikuli这个框架的原理是这样的,计算机用户不需要一行行的去写代码,而是用屏幕截屏的方式,用截出来的图形摆列组合成神器的程序,这是Airtest的一部分。 另外,Airtest也基于poco这个U控...原创 2020-03-06 07:22:38 · 2078 阅读 · 0 评论 -
APP爬虫开发环境准备
在进行APP爬虫开发的时候,我们一般是通过手机连接PC端代理上网,进行抓包分析,那么以这种方式抓包的时候就需要在手机端进行对应的操作,但是我们不可能一直通过手动去操作手机进行抓包,所以要使用adb这种Android开发命令的方式进行操作。但是现在很多手机权限控制比较严密,直接连接真机有很多操作是不支持的,所以就必须用到模拟器。很庆幸安卓模拟器有很多种,下面我们就介绍一下APP爬虫开发环境的简单搭建...原创 2020-03-02 22:01:49 · 525 阅读 · 0 评论 -
做直播能有多赚钱,Python告诉你
前面我们介绍了APP爬虫环境的搭建和mitmproxy工具的简单使用,这次我们要来一个简单的APP爬虫,尝试一下APP爬虫的简单实用,顺便让我们看看喜马拉雅上的主播到底有多赚钱。APP爬虫一般分为两种方式,一种是直接分析破解应用的API,模拟API访问获取数据,另一种是设置代理,采用自动化操作,通过mitmproxy进行数据抓取。分析API接口这种方式爬取速度最快,但是分为初级和高级,初级是...原创 2020-02-29 12:05:00 · 1368 阅读 · 0 评论 -
使用Python生成自己的特色二维码
二维码又称二维条码,常见的二维码为QR Code,QR全称Quick Response,是一个近几年来移动设备上超流行的一种编码方式,它比传统的Bar Code条形码能存更多的信息,也能表示更多的数据类型。如果我们在进行内容分享的时候,直接发给对方一个二维码或者在自己网站上展示二维码,是不是显得比较有逼格。下面我们就教大家怎么使用Python生成二维码并在网站上进行展示。安装库pip in...原创 2020-02-28 22:39:08 · 500 阅读 · 0 评论 -
Django CSRF认证的几种解决方案
什么是CSRF浏览器在发送请求的时候,会自动带上当前域名对应的cookie内容,发送给服务端,不管这个请求是来源A网站还是其它网站,只要请求的是A网站的链接,就会带上A网站的cookie。浏览器的同源策略并不能阻止CSRF攻击,因为浏览器不会停止js发送请求到服务端,只是在必要的时候拦截了响应的内容。或者说浏览器收到响应之前它不知道该不该拒绝。攻击过程用户登陆A网站后,攻击者自己开发一个B网...原创 2020-02-28 21:35:52 · 1185 阅读 · 0 评论 -
使用pandas筛选出指定列值所对应的行
在pandas中怎么样实现类似mysql查找语句的功能:select * from table where column_name = some_value;pandas中获取数据的有以下几种方法:布尔索引位置索引标签索引使用API假设数据如下:import pandas as pdimport numpy as npdf = pd.DataFrame({'A': ...原创 2020-02-28 21:28:50 · 11075 阅读 · 0 评论 -
selenium+requests进行cookies保存读取操作
看这篇文章之前大家可以先看下我的上一篇文章:cookies详解本篇我们就针对上一篇来说一下cookies的基本应用使用selenium模拟登陆百度```pythonfrom selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.wait im...原创 2018-05-23 22:17:23 · 15851 阅读 · 1 评论 -
爬虫cookies详解
cookies简介cookie是什么?Cookie,有时也用其复数形式 Cookies,指某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据(通常经过加密)。定义于 RFC2109 和 2965 中的都已废弃,最新取代的规范是 RFC6265[1]。Cookie其实就是浏览器缓存。cookie的生命周期会话cookie:没有设置expires(是个时间戳)的...原创 2018-05-23 21:27:38 · 5423 阅读 · 0 评论 -
博客园自动发帖--图像处理极验验证码
为了写这篇文章,先写了两篇爬虫cookies详解和selenium+requests进行cookies保存读取操作,感兴趣的朋友可以看看前两篇文章。这篇文章我主要是提供另一种滑动验证码的处理方式,看过我文章的朋友应该知道那篇极验验证码破解之selenium,在那篇文章中我们通过分析元素中的图片信息拼接完整图片和缺口图片,然后通过像素对比计算移动距离,使用selenium模拟拖动完成验证。...原创 2018-05-23 20:35:48 · 1050 阅读 · 1 评论 -
新浪微博PC端登录分析
本来给自己定了个2018的目标,平均每月写两篇文章,现在已经快三月了,第一篇稿子才憋出来,惭愧呀,直入主题吧,今天给大家带来的是新浪微博PC端的模拟登陆。工具这次使用的工具是Charles和chrome浏览器,看过我之前文章的同学应该知道我使用的Mac电脑,Fiddler不能用,之前用虚拟机很麻烦。很早的时候有装过Charles,但是不太会用,后来发现一篇比较详细的文章,忘了记录了。发...原创 2018-02-25 20:59:51 · 10702 阅读 · 0 评论 -
12306自动刷票下单-下单
12306自动刷票下单-登录 12306自动刷票下单-查票预定下单进入下单界面了 https://kyfw.12306.cn/otn/confirmPassenger/initDc 还有一个请求https://kyfw.12306.cn/otn/confirmPassenger/getPassengerDTOs 仔细看一下返回值,是我们常用联系人的信息,要下单肯定得选乘客信息嘛。这也原创 2017-12-03 22:10:40 · 3331 阅读 · 8 评论 -
12306自动刷票下单-查票下单
前言上篇写了12306登录,隔了快一个月了,才准备动手写下单篇,真的要非常感谢博客园的 Asimple朋友,如果不是看到你的留言,我几乎都忘了要写下篇了,这一点在简书上就不好,都没人看/(ㄒoㄒ)/~~,刚开始写博客,真的需要大家的鼓励,看的人多了自然有动力写更多的,所以这一篇要给那些看过我上篇的同学们,尤其是这位Asimple同学,就是为你而写,没错就是这个原因。因为你让我知道了有人在看,而且用心原创 2017-12-03 21:57:38 · 1137 阅读 · 3 评论 -
12306自动下单抢票-登录篇
12306网站推出图片验证码以后,对于抢票软件就提出了更高的要求,本篇并不涉及自动识别验证码登录(主要是博主能力所限),提供一个途径-打码平台,这个几乎是可以破解所有验证码了,本篇主要是分享一下12306网站登录的流程的学习,勿吐槽,有问题请指正,博主也是刚开始接触爬虫,大家共勉共勉。废话不多说了,直接干吧 首先打开12306登录页面https://kyfw.12306.cn/otn/login/原创 2017-11-18 18:05:38 · 8813 阅读 · 1 评论