- 博客(6)
- 收藏
- 关注
原创 Glidedsky系列—字体反爬
前言题目地址:http://glidedsky.com/level/web/crawler-font-puzzle-1提示:以下是本篇文章正文内容,下面案例可供参考一、题目描述二、题目分析1.网页分析我们可以看到div的文本内容,跟网页显示是不一样的,这次题目是通过加载对应的字体文件,把文本内容映射成最后我们看到网页显示的结果,我们在网页源码中可以看到base64加密后的字体文件,通过正则获取其内容再通过base64解密我们就可以获得对应的二进制字体文件2.读入数据代码如下(示例)
2021-09-03 09:51:00
120
原创 Glidedsky系列—爬虫CSS反爬
前言题目网址为:http://glidedsky.com/level/web/crawler-css-puzzle-1提示:以下是本篇文章正文内容,下面案例可供参考一、题目描述二、使用步骤1.引入库代码如下(示例):import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport warningswarnings.filterwarnings('igno
2021-08-24 11:39:15
193
原创 Glidedsky系列—爬虫基础协程版aiohttp
前言题目具体分析,可以查看文章Glidedsky系列—爬虫基础提示async def func(url): async with aiohttp.ClientSession() as session: async with await session.get(url=url,headers=headers) as response: data = await response.read()注意当任务量较多时,以上写法会报错,提示信号灯超时时间已
2021-08-19 11:14:10
665
原创 Glidedsky系列—IP屏蔽
前言ip防屏蔽1和防屏蔽2代码也是一样的,也放在一起讲了,需要用到代理ip,在网上随便找找都能找到,一般注册都会送一定的金额,足够我们完成这两道题目了题目网址:http://glidedsky.com/level/web/crawler-ip-block-2题目描述页面分析当初我们做第一题时,本机ip就被采集了,连题目也看不了了,不过它的网页结构跟第一题是没变的,我们只要解决ip的问题,这道题目就很简单了,我这里使用的是天启ip,可以参考我的设置,完成两道题目,ip剩余500多,可用率还是很
2021-08-18 16:22:42
414
原创 Glidedsky系列—爬虫基础多线程版
前言题目具体分析,可以查看上一篇文章Glidedsky系列—爬虫基础直接贴源码import reimport threadingimport requestsimport timeimport queuefrom lxml import etreeheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:90.0) Gecko/20100101 Firefox/90.0',}start .
2021-08-14 12:29:33
156
原创 Glidedsky系列—爬虫基础
Glidedsky系列—爬虫基础文章目录Glidedsky系列---爬虫基础前言一、题目描述二、题目分析1.引入库2.读入数据总结前言第一第二题比较简单,也类似,就放在一起讲了提示:题目网址:http://glidedsky.com/level/web/crawler-basic-1一、题目描述二、题目分析1.引入库代码如下(示例):import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimpo
2021-08-14 12:12:39
259
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人