十行代码使用pandas实现全站免费代理ip爬取,使用read_html提取网页表格数据

本文介绍如何利用pandas的read_html函数简洁高效地爬取并提取西刺网站上的免费代理IP数据,代码简单易懂,方便后续数据处理和存储。
摘要由CSDN通过智能技术生成

pandas十行代码实现网页表格数据提取

示例:爬取西刺免费代理信息

之前每次爬取免费代理时都要进行很复杂的匹配提取对应的ip,端口等信息,无意间发pandas中有个很简单的提取类似这种代理ip信息的方法,如下图提取西刺代理页面的ip信息.

知道大家都是急性子话不多说直接上代码.

import pandas as pda
import requests
proxies = {
            "http" : "http://username:password@ip:port", # 由于本人公司网络限制所以此处添加了代理
            }
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'} #西刺有个简单的检查头部信息故添加了下
urls = ['http://www.xicidaili.com/nn/%s'%i for i in range(1,3480)] 
resp = requests.get(urls[0],proxies=proxies,headers=headers,timeout=5)# 本次演示就不进行遍历所有的url进行提取了
resp.encoding='utf-8'
contents = pda.read_html(resp.text)
print(contents)

来来来,我们看下处理的结果:
在这里插入图片描述

对于这种数据框的数据大家应该都很容易处理了吧,是存数据库还是干什么,你开心就好.本次分享结束,下次再见!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值