- 博客(5)
- 收藏
- 关注
原创 深入理解爬虫去重原理
理解爬虫去重原理一.简介对于爬虫来说,去重可以避免网络之间的环路,增加爬取效率,避免重复数据反复请求,降低了被识别的风险,减少磁盘 IO,减轻了存储负担,去重后的数据,才具有可用性。二.目前常用的去重方式以及原理1.Set集合去重1.1.如何对一个列表进行去重?ids = [1,2,3,3,4,6,3,4,5,1]news_ids = []for id in ids:if id ...
2018-12-28 18:57:18 4528
原创 逆向破解flash视频url
今天来看一个swf格式的加密url逆向解析的例子:简介网页链接http://www.tvsky.tv/Industry/Show/278/33875/通过浏览器加载进度条长度可以找到视频的地址:视频详情:http://tvskysp.tvsky.tv:8082/hangyepindao/lvyou/16.flv全局搜索视频详情中的部分关键元素也没有获得关键的信息:鼠标指到视频上,...
2018-12-26 19:00:54 3133 3
原创 百度翻译爬虫js逆向解析
今天来看一下百度翻译js逆向解析。问题在翻译的接口输入:汉语中文,https://fanyi.baidu.com/?aldtype=16047#zh/en/汉语中文找到它请求的接口:https://fanyi.baidu.com/v2transapi ,发现是post请求,携带的参数为from: zhto: enquery: 汉语中文simple_means_flag: 3sign...
2018-12-14 19:48:09 4177 2
原创 美拍爬虫逆向js解析实战
爬虫肆无忌惮的好日子一去不复返了,各个公司如今都有了防范意识。采用cookie池,更换user-agent,更换代理,采用打码平台破解验证码,自动化采集等爬取,已经是比较low的方式了,高级一点的有逆向解析js和反编译app破解加密sign等。逆向解析以网页版美拍无水印视频爬取为例子:爬取美拍热门视频:https://www.meipai.com/medias/hot1.找到接口:https...
2018-12-13 22:21:47 3746 6
原创 一文搞清楚手机无法抓包
手机无法抓包常用的抓包软件主要有Fiddler和Charles(mac电脑使用),其它的还有Wireshark,Httpwatch等,功能大同小异。这些工具开发前端后台用来抓包调试接口,测试抓包检测接口,爬虫抓包用来请求接口获取数据,非常重要。Fiddler免费使用,学习可以参考:http://www.cnblogs.com/yyhh/p/5140852.htmlCharles免费版只能使...
2018-12-05 12:33:55 2445
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人