十行代码使用pandas实现全站免费代理ip爬取,使用read

本文链接：https://blog.csdn.net/wuzuncanhun/article/details/84327601

本文介绍如何利用pandas的read_html函数简洁高效地爬取并提取西刺网站上的免费代理IP数据，代码简单易懂，方便后续数据处理和存储。

摘要由CSDN通过智能技术生成

pandas十行代码实现网页表格数据提取

示例:爬取西刺免费代理信息

之前每次爬取免费代理时都要进行很复杂的匹配提取对应的ip,端口等信息,无意间发pandas中有个很简单的提取类似这种代理ip信息的方法,如下图提取西刺代理页面的ip信息.

知道大家都是急性子话不多说直接上代码.

import pandas as pda
import requests
proxies = {
            "http" : "http://username:password@ip:port", # 由于本人公司网络限制所以此处添加了代理
            }
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'} #西刺有个简单的检查头部信息故添加了下
urls = ['http://www.xicidaili.com/nn/%s'%i for i in range(1,3480)] 
resp = requests.get(urls[0],proxies=proxies,headers=headers,timeout=5)# 本次演示就不进行遍历所有的url进行提取了
resp.encoding='utf-8'
contents = pda.read_html(resp.text)
print(contents)

来来来,我们看下处理的结果:
在这里插入图片描述