pandas十行代码实现网页表格数据提取
示例:爬取西刺免费代理信息
之前每次爬取免费代理时都要进行很复杂的匹配提取对应的ip,端口等信息,无意间发pandas中有个很简单的提取类似这种代理ip信息的方法,如下图提取西刺代理页面的ip信息.
知道大家都是急性子话不多说直接上代码.
import pandas as pda
import requests
proxies = {
"http" : "http://username:password@ip:port", # 由于本人公司网络限制所以此处添加了代理
}
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'} #西刺有个简单的检查头部信息故添加了下
urls = ['http://www.xicidaili.com/nn/%s'%i for i in range(1,3480)]
resp = requests.get(urls[0],proxies=proxies,headers=headers,timeout=5)# 本次演示就不进行遍历所有的url进行提取了
resp.encoding='utf-8'
contents = pda.read_html(resp.text)
print(contents)
来来来,我们看下处理的结果:
对于这种数据框的数据大家应该都很容易处理了吧,是存数据库还是干什么,你开心就好.本次分享结束,下次再见!