Python创建免费Ip代理池，伪装Ip。

最新推荐文章于 2024-08-05 09:43:44 发布

TooHungfai

最新推荐文章于 2024-08-05 09:43:44 发布

阅读量704

点赞数 2

分类专栏： Python 文章标签： python xpath

本文链接：https://blog.csdn.net/weixin_49043125/article/details/114753536

版权

Python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Python创建免费Ip代理池

主要使用requests第三方库。欸嘿，有了这个，就不用花钱买Ip了，生活小妙招。妙哇。

一、具体思路

1.利用requests爬取免费代理Ip的网页
2.存储列表后，导出依次发送请求到网页
3.判定Ip是否合法（就是能不能用的意思）
4.合法Ip录入总列表
5.遇到封Ip的网页，调用该源码py循环遍历总列表，直到爬完。

示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。

二、代码

1.引入库

import requests
from lxml import etree

2.爬取免费Ip网页的请求头

headers={
    'User-Agent':'使用自己的用户代理哇，啥？你不会找？看我上一篇文章把。'
}
proxies = {
    'http': '同理哇'
}
# 爬取代理池Ip的请求头
def Get_text(url,headers):
    resoe=requests.get(url,headers=headers)
    resoe.encoding='utf-8'
    return resoe.text

3.爬取的信息录入

def main():
	url = '输入免费代理Ip页面'
    Dbhtml = etree.HTML(Get_text(url, headers))
    Dip = Dbhtml.xpath('Xpath，请分析js')
    # 录入有效Ip
    for j in Dip:
        proxies['http']=j
        Pdurl = '测试Ip是否合法的网页（就是随便找一个就行）'
        Pdhtml = Get_Pd(Pdurl, headers,proxies)
        if Pdhtml == 'OK':
            list_1.append(j)
    print(list_1)

判断Ip是否合法

def Get_Pd(Pdurl,headers,proxies):
    try:
        respon = requests.get(Pdurl,headers=headers,proxies=proxies)
        respon.encoding = 'utf-8'
        return 'OK'
    except Exception as v:
        print(f"请求失败，无效Ip，{v}")
        return 'Stop'

全部代码

import requests
from lxml import etree

headers={
   'User-Agent':''
}
proxies = {
    'http': ''
}
# 爬取代理池Ip的请求头
def Get_text(url,headers):
    resoe=requests.get(url,headers=headers)
    resoe.encoding='utf-8'
    return resoe.text
# 判断Ip是否合法
def Get_Pd(Pdurl,headers,proxies):
    try:
        respon = requests.get(Pdurl,headers=headers,proxies=proxies)
        respon.encoding = 'utf-8'
        return 'OK'
    except Exception as v:
        print(f"请求失败，无效Ip，{v}")
        return 'Stop'
# 爬取代理池Ip
def main():
    Dbhtml = etree.HTML(Get_text(url, headers))
    Dip = Dbhtml.xpath('')
    # 录入有效Ip
    for j in Dip:
        proxies['http']=j
        Pdurl = ''
        Pdhtml = Get_Pd(Pdurl, headers,proxies)
        if Pdhtml == 'OK':
            list_1.append(j)
    print(list_1)
if __name__ == '__main__':
    list_1 = []
    main()

总结

本文章纯属记录自身所学所写代码，不商用。
欸嘿嘿嘿，有了免费的代理Ip池就可以获取大量需要的信息了。什么？不会分析js的Xpath？不会分析申请头？关注博主，博主会更新的。
请各位虫友自觉遵守http协议，不恶意爬虫，不破坏网络安全环境。

TooHungfai

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Python创建免费Ip代理池，伪装Ip。

Python创建免费Ip代理池主要使用requests第三方库。欸嘿，有了这个，就不用花钱买Ip了，生活小妙招。妙哇。一、具体思路1.利用requests爬取免费代理Ip的网页2.存储列表后，导出依次发送请求到网页3.判定Ip是否合法（就是能不能用的意思）4.合法Ip录入总列表5.遇到封Ip的网页，调用该源码py循环遍历总列表，直到爬完。示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、代码1.引入库import requestsfrom l
复制链接

扫一扫