proxypool
proxypool是一个自动抓取免费代理并检测入库的程序,并提供开放的实时API服务:proxypool-open-WebAPI
欢迎Star/Fork
使用
本项目采用python3进行开发,建议使用virtualenv
# 下载源码
git clone https://github.com/SimpleBrightMan/proxypool.git
cd proxypool
# 安装依赖
pip install -r requirements.txt
# 爬虫运行
python proxy_spider.py
# 重新验证
python check_proxy.py
如果正常可以出现如下的截图:
- 爬虫运行
- 重新验证
WebAPI
# 启动webAPI
python webAPI.py 8080
此时访问http://127.0.0.1:8080就可以调用WebAPI了.
另外,我在阿里云上部署了这个项目,每隔6小时会定时自动抓取/重新验证一遍代理,开放的API地址为:proxypool-open-WebAPI
API使用说明
URL : http://127.0.0.1:8080 or http://proxy.nghuyong.top
Method : GET
Return : json格式,形如:
{
num: 692,
updatetime: "2017-10-15 22:49:16",
data: [
{
type: "http",
round_trip_time: 1.38,
ip_and_port: "181.193.73.18:53281",
country: "Costa Rica",
anonymity: "transparent"
},
{
type: "http",
round_trip_time: 0.52,
ip_and_port: "113.214.13.1:8000",
country: "China",
anonymity: "high_anonymity"
},
{
type: "http",
round_trip_time: 0.58,
ip_and_port: "159.82.166.133:8080",
country: "United States",
anonymity: "normal_anonymity"
},
...
]
}
返回json参数说明:
参数 | 类型 | 说明 |
---|---|---|
num | int | 返回代理IP的总数 |
updatetime | char | 最后一次更新时间 |
data | list | 代理IP数据 |
type | char | 该代理的类型 |
round_trip_time | double | 针对测试网站使用该代理请求往返时间 |
ip_and_port | char | 代理的IP和端口 |
country | char | 代理所在的国家 |
anonymity | char | 代理的匿名情况:transparent:透明;normal_anonymity:匿名;high_anonymity:高匿 |
请求的参数举例说明:
- / : 将返回数据库中的所有代理
- /?country=China :针对国家的条件进行结果过滤
- /?type=http :针对代理类型进行结果过滤
- /?anonymity=normal_anonymity :将返回匿名程度大于等于查询条件的代理,其中transparent
在你的爬虫项目中使用该WebAPI
import requests
# 请求API,并解析json成dictionary
proxy_result = requests.get("http://proxy.nghuyong.top").json()
num = proxy_result['num']
updatetime = proxy_result['updatetime']
proxy_data = proxy_result['data']
# 获取其中一个代理
one_proxy = proxy_data[0]
# 爬虫加上代理
requests.get("http://www.baidu.com",proxies={"http":one_proxy['type']+"://"+one_proxy['ip_and_port']})
项目框架说明
-
log.py : 项目日志模块,提供三种日志处理方式:1)一般日志打印到控制台 2)一般日志写入到文件,每天进行日志分割,并可以通过web查看日志 3)严重的错误日志邮件通知
-
db.py : 数据库的相关操作,采用sqlite3数据库,并通过peewee实现ORM操作。
-
webAPI.py: 通过web.py开发webAPI接口。
-
spider/**_spider.py:针对不同免费代理IP网站的爬虫抓取,都继承自base_spider.py,有相同的运行接口,主要是重写网页解析函数。
-
proxy_spider.py:主代理爬虫入口,调用子爬虫,通过gevent实现代理抓取,检验和入库。
-
check_proxy.py:主验证代理入口,定时重新验证数据库中的代理是否可用,不可用则移除。
定时任务设置
通过crontab设置定时任务,进行定时的代理抓取和验证。由于项目在virtualenv环境的运行,所以可以编写一个脚本,先进入虚拟环境,在执行程序。
crontab_shell.sh
!/bin/bash
cd /path/to/virtualenv
source ./bin/activate
cd /path/to/project
/path/to/virtualenv/bin/python3.4 /path/to/project/proxy_spider.py
/path/to/virtualenv/bin/python3.4 /path/to/project/check_proxy.py
deactivate
再通过 crontab -e
设置:
# m h dom mon dow command
0 0,6,12,18 * * * sh /path/to/crontab_shell.sh
这样,每隔6小时就会自动运行一次!