爬虫笔记38之反爬系列一：ip反爬、

最新推荐文章于 2024-05-15 07:59:17 发布

进阶的阿牛哥

最新推荐文章于 2024-05-15 07:59:17 发布

阅读量1.8k

点赞数 3

文章标签：爬虫 python

本文链接：https://blog.csdn.net/weixin_49167820/article/details/120683974

版权

1、遇到的问题：使用爬虫在爬取数据的时候，如果爬取的频率过快，或者是一些其它的原因，被对方网站识别出来是爬虫程序，这个时候我们的IP就会被面临封杀的危险，一旦IP被封了之后，我们的爬虫程序就无法去爬取该网站资源了。

2、如何解决?
使用代理IP

免费的ip网站：推荐豌豆代理，每天20个免费的(但不一定都能用)
付费的ip网站：推荐快代理，价格便宜一些。

3、关于2个ip的说明
（1）内网ip：即我们在cmd里输入ipconfig 得到：
在这里插入图片描述
（2）外网ip:我们可以在网站http://httpbin.org/ip查看到：

4、我们所说的是外网ip可能被封。

一、ip反爬
1、免费的代理ip

在上图中就有20个免费的代理ip,一个一个的试：

结果20个都不行。

2、付费的代理IP（https://www.kuaidaili.com/pricing/）
在这里插入图片描述
独享代理和私密代理需要该网站的登录用户名和密码
语法：proxies = {‘协议’:‘协议://用户名:密码@ip:端口号’}

（1）独享代理
在这里插入图片描述
结果：

（2）开放代理：

代码：

import requests

class Proxy:
    def __init__(self):
        self.proxy_url = 'http://dev.kdlapi.com/api/getproxy/?orderid=992520441312817&num=20&protocol=2&method=1&an_ha=1&sep=2'
        self.test_url = 'https://www.baidu.com/'
        self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.128 Safari/537.36'}

    def get_proxy(self):
        html = requests.get(url=self.proxy_url,headers=self.headers).text
        proxy_list = html.split('\n')
        for proxy in proxy_list:
            self.text_proxy(proxy)

    def text_proxy(self,proxy):     # 测试开放代理是否可用
        proxies = {
            'http': '{}'.format(proxy),
            'https': '{}'.format(proxy)}
        try:
            res = requests.get(url=self.test_url,proxies=proxies,headers=self.headers,timeout=2)
            if res.status_code == 200:
                print(proxy,'能用')
        except Exception as e:
            print(proxy,'不能用')

    def main(self):
        self.get_proxy()
        
if __name__ == '__main__':
    spider = Proxy()
    spider.main()

结果：
在这里插入图片描述
（3）私密代理：

import requests

class Proxy:
    def __init__(self):
        self.proxy_url = 'http://dps.kdlapi.com/api/getdps/?orderid=982520462433055&num=20&pt=1&sep=2'
        self.test_url = 'https://www.baidu.com/'
        self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.128 Safari/537.36'}

    def get_proxy(self):
        html = requests.get(url=self.proxy_url,headers=self.headers).text
        proxy_list = html.split('\n')
        for proxy in proxy_list:
            self.text_proxy(proxy)

    def text_proxy(self,proxy): # 测试开放代理
        # 'http':'http://192149641:1ts5t50q@47.108.189.170:16816',账户名和密码
        proxies = {
            'http': 'http://192149641:1ts5t50q@{}'.format(proxy),
            'https': 'https://192149641:1ts5t50q@{}'.format(proxy)}
        try:
            res = requests.get(url=self.test_url,proxies=proxies,headers=self.headers,timeout=2)
            if res.status_code == 200:
                print(proxy,'能用')
        except Exception as e:
            print(proxy,'不能用')
            
    def main(self):
        self.get_proxy()

if __name__ == '__main__':
    spider = Proxy()
    spider.main()

结果：
在这里插入图片描述

进阶的阿牛哥

关注

3
点赞
踩
13

收藏

觉得还不错? 一键收藏
1
评论
爬虫笔记38之反爬系列一：ip反爬、

1、遇到的问题：使用爬虫在爬取数据的时候，如果爬取的频率过快，或者是一些其它的原因，被对方网站识别出来是爬虫程序，这个时候我们的IP就会被面临封杀的危险，一旦IP被封了之后，我们的爬虫程序就无法去爬取该网站资源了。2、如何解决?使用代理IP免费的ip网站：推荐豌豆代理，每天20个免费的(但不一定都能用)3、关于2个ip的说明（1）内网ip：即我们在cmd里输入ipconfig 得到：（2）外网ip:我们可以在网站http://httpbin.org/ip查看到：4、我们所说的是外
复制链接

扫一扫