自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

无名之辈

如果您有相关问题,欢迎留言。。。

  • 博客(5)
  • 收藏
  • 关注

原创 深入理解爬虫去重原理

理解爬虫去重原理一.简介对于爬虫来说,去重可以避免网络之间的环路,增加爬取效率,避免重复数据反复请求,降低了被识别的风险,减少磁盘 IO,减轻了存储负担,去重后的数据,才具有可用性。二.目前常用的去重方式以及原理1.Set集合去重1.1.如何对一个列表进行去重?ids = [1,2,3,3,4,6,3,4,5,1]news_ids = []for id in ids:if id ...

2018-12-28 18:57:18 4528

原创 逆向破解flash视频url

今天来看一个swf格式的加密url逆向解析的例子:简介网页链接http://www.tvsky.tv/Industry/Show/278/33875/通过浏览器加载进度条长度可以找到视频的地址:视频详情:http://tvskysp.tvsky.tv:8082/hangyepindao/lvyou/16.flv全局搜索视频详情中的部分关键元素也没有获得关键的信息:鼠标指到视频上,...

2018-12-26 19:00:54 3133 3

原创 百度翻译爬虫js逆向解析

今天来看一下百度翻译js逆向解析。问题在翻译的接口输入:汉语中文,https://fanyi.baidu.com/?aldtype=16047#zh/en/汉语中文找到它请求的接口:https://fanyi.baidu.com/v2transapi ,发现是post请求,携带的参数为from: zhto: enquery: 汉语中文simple_means_flag: 3sign...

2018-12-14 19:48:09 4177 2

原创 美拍爬虫逆向js解析实战

爬虫肆无忌惮的好日子一去不复返了,各个公司如今都有了防范意识。采用cookie池,更换user-agent,更换代理,采用打码平台破解验证码,自动化采集等爬取,已经是比较low的方式了,高级一点的有逆向解析js和反编译app破解加密sign等。逆向解析以网页版美拍无水印视频爬取为例子:爬取美拍热门视频:https://www.meipai.com/medias/hot1.找到接口:https...

2018-12-13 22:21:47 3746 6

原创 一文搞清楚手机无法抓包

手机无法抓包常用的抓包软件主要有Fiddler和Charles(mac电脑使用),其它的还有Wireshark,Httpwatch等,功能大同小异。这些工具开发前端后台用来抓包调试接口,测试抓包检测接口,爬虫抓包用来请求接口获取数据,非常重要。Fiddler免费使用,学习可以参考:http://www.cnblogs.com/yyhh/p/5140852.htmlCharles免费版只能使...

2018-12-05 12:33:55 2445

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除