总述
现在的网络反爬虫手段层出不穷,针对该问题最简单的方法就是更换代理,该博文展示一种获取免费可用代理的方法
该模块最终会返回一个可用代理(Proxy)的列表,在其他类中导入该模块接收列表即可,实现了接口操作
该模块核心知识点:
1.代理网址中 ip 数据的提取,这边采用xpath进行数据提取;
2.对获取到的 ip 数据进行检查,涮选出可用 ip;
3.通过进程池模块提高爬虫效率,降低爬取所需时间;
1.如何从代理网站上提取代理内容
代理网址很多,例如:快代理、西刺代理、98免费代理 等等,这边我们讲解西刺代理网址中的 ip 数据获取,其他网站以此类推。
首先,我们要明确知道我们需要哪些信息,在这边我们要获取IP地址以及端口号然后对其组合(http://120.83.108.89:9999)
紧接着我们右键检查网页元素信息
通过图片可知 ip 和 port 是在 //table[@id="ip_list"]/tbody/tr 下 td[2] 和 td[3] 中
这边要注意的是 tbody标签 经常不存在网页源码中,只单独存在网页元素中,而我们路径的选取是按网页源码作为标准的,为此,我们还要右键查看网页源码对路径进行二次比对确认
我们发现并