![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
scrapy
yunlongliang
不恋过往,不畏将来
展开
-
一种新的反爬虫思路
概述在面临一些爬虫爬取速度过快或者持续爬取的网站(一般都是大平台或者个别的敏感网站),那么你的爬虫极有可能会被封。就拿搜狗微信来说,这是个人真实面临的问题,最终通过一种方式解决了该问题。搜狗微信的反爬虫主要是验证码,当你访问时间过快,那么你一定会被封的,因为就算你在浏览器一直点击刷新,你也会被封的。但是搜狗微信有两种封锁爬虫的机制。第一,封cookie,当你在浏览器被封了之后,你只需要...原创 2018-07-19 23:05:22 · 1780 阅读 · 1 评论 -
起点网 字体反爬
起点女生网爬虫,主要反爬措施,字体混淆,16进制转换。目标网站 https://www.qidian.com/mm/all本爬取该网站40W+小说信息(不包含小说详细内容),存进mongodb操作1、主要对如下字段进行解释2、在源码中找到如下字段的显示3、面对这个结果,我们第一反应就是字体混淆,然后直接在源码中搜索woff,然后把该链接的文件下载到本地,然后利用TT...原创 2018-11-16 17:02:02 · 987 阅读 · 0 评论