Crawler
Allbuypy
这个作者很懒,什么都没留下…
展开
-
Fiddler与手机模拟器使用需要如何配置,如何用Fiddler捕获json数据
Fiddler简介Fiddler 是强大的抓包工具,它的原理是以 web 代理服务器的形式进行工作的,使用的代理地址是:127.0.0.1,端口默认为 8888,我们也可以通过设置进行修改。代理就是在客户端和服务器之间设置一道关卡,客户端先将请求数据发送出去后,代理服务器会将数据包进行拦截,代理服务器再冒充客户端发送数据到服务器;同理,服务器将响应数据返回,代理服务器也会将数据拦截,再返回给客户端。Fiddler工作流程Fiddler安装和配置Fiddler安装包百度云下载配置信息打开Fidd原创 2020-12-01 23:18:36 · 736 阅读 · 0 评论 -
python-Selenium结合浏览器使用及案例
(一)Selenium 简介Selenium是一个 Web 的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同的是 Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括 PhantomJS 这些无界面的浏览器)。Selenium 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。Selenium 自己不带浏览器,不支持浏览器的功能,它需要与第三方浏览器结合在一起才能使用。原创 2020-11-27 21:45:57 · 612 阅读 · 0 评论 -
Python-动态HTML处理(AJAX)
一、爬虫与反爬虫引用小故事来给大家介绍一下背景吧爬虫(spider),反爬虫(Anti-spider),反反爬虫(Anti-Anti-spider)之间恢宏壮阔的斗争…Day 1小莫想要某站上所有的电影,写了标准的爬虫(基于 httpClient 库),不断地遍历某站的电影列表页面,根据 Html 分析电影名字存进自己的数据库。这 个 站 点 的 运 维 小 黎 发 现 某 个 时 间 段 请 求 量 陡 增 , 分 析 日 志 发 现 都 是IP(xxx.xxx.xxx.xxx)这个用户,并原创 2020-11-25 19:56:51 · 843 阅读 · 0 评论 -
python-Xpath语法
一、XMl简介(一)什么是 XMLXML 指可扩展标记语言(EXtensibleXML 是一种标记语言,很类似 HTML。XML 的设计宗旨是传输数据,而非显示数据。XML 的标签需要我们自行定义。XML 被设计为具有自我描述性。XML 是 W3C 的推荐标准。W3School 官方文档:http://www.w3school.com.cn/xml/index.asp(二)XML 和 HTML 的区别他们两者都是用于操作数据或者结构数据,在结构上大致相同的,但他们在本质上却存在着明显原创 2020-11-24 20:25:32 · 2081 阅读 · 6 评论 -
Python-正则表达式(爬虫篇)
一、为什么要学正则表达式实际上爬虫有四个主要步骤明确目标:要知道去哪个范围或者网站去搜索爬:将所有的网站的内容全部爬下来取:去掉对我们没用处的数据处理数据:按照我们想要的方式存储和使用我们爬下来的数据大部分都是全部的网页,这些数据有时候是很庞大并且混乱的,大部分的董事是我们不关心的,所以我们需要将之按我们的需要过滤和匹配出来。那么对于文本的过滤或者规则的匹配,最强大的就是正则表达式,是 Python 爬虫世界里必不可少的神兵利器。二、基础正则表达式正则表达式,又称规则表达式,通常被用原创 2020-11-23 23:35:09 · 593 阅读 · 0 评论 -
什么是长连接?长连接、短连接、三次握手
什么是长连接?在经过三次握手之后,如果再进行请求,不需要再次进行三次握手。HTTP连接分为两个:长连接、短连接长连接:客户端和服务端建立连接后不进行断开,之后客户端再次访问这个服务器上的内容时,继续使用这一条连接通道。短连接:客户端和服务端建立连接,发送完数据后立马断开连接。下次要取数据,需要再次建立连接。HTTP/1.0:默认使用短连接HTTP/1.1:默认使用长连接HTTP的长连接和短连接就是TCP(传输协议)的长连接和短连接三次握手seq:序列号,是一个随机值ack:确认序号原创 2020-11-22 21:40:09 · 3622 阅读 · 0 评论 -
cookie、session与token
cookie、session与tokencookie产生的原因:-HTTP是无状态协议,每个请求都是安全独立的,服务器是无法确认当前访问者的身份,服务器和浏览器为了进行会话的跟踪,必须主动去维护一个状态(告诉服务器前后两个请求是否来自同一个服务器),这个状态需要通过cookie或者session来实现。什么是cookie?cookie是服务器发送到用户浏览器,并进行保存到本地的数据,它会在下一次请求的时候再一次携带并发送到浏览器上。sessionsession是区别cookie的另一种记录原创 2020-11-22 20:37:10 · 101 阅读 · 0 评论 -
GET和POST有哪些区别?
GET和POST有哪些区别?GET请求参数是通过URL传递的;POST请求的参数放在请求体中。GET请求比POST请求更不安全,因为URL直接暴露在URL中,所以GET请求不能够用来传递敏感信息。GET请求在URL中传递的参数是有长度限制的(在HTTP协议中并没有对URL的长度进行限制,限制是在特定的浏览器以及服务器对它的限制,不同浏览器限制的长度不同);POST没有。GET请求参数会完整的保留在浏览器的历史记录中;POST请求的参数不会保留。GET请求进行URL编码(百分号编码);POST请求原创 2020-11-19 22:39:08 · 346 阅读 · 0 评论