Pholcus初探

Pholcus(幽灵蛛)是一款纯Go语言编写的高并发、分布式、重量级爬虫软件,支持单机、服务端、客户端三种运行模式,拥有Web、GUI、命令行三种操作界面;规则简单灵活、批量任务并发、输出方式丰富(mysql/mongodb/csv/excel等)、有大量Demo共享;同时她还支持横纵向两种抓取模式,支持模拟登录和任务暂停、取消等一系列高级功能。


今天第一次使用pholcus抓取文章数据,记录下操作步骤,仅供参考。


软件名称及版本:
centos 7
go 1.6
pholcus v0.85
mysql 5.7


1、安装go


wget http://www.golangtc.com/static/go/1.6/go1.6.linux-amd64.tar.gz
tar -xzvf go1.6.linux-amd64.tar.gz
mv go /home/web/go
export GOROOT=/home/web/go
export GOBIN=$GOROOT/bin
export PATH=$PATH:$GOBIN
export GOPATH=/home/web/gopath
source /etc/profile


2、安装pholcus


go get -u -v github.com/henrylee2cn/pholcus


3、编译、配置、运行


创建项目:pholcus.go
[code=c]package main


import (
    "github.com/henrylee2cn/pholcus/exec"
    _ "github.com/pholcus/spider_lib" // 此为公开维护的spider规则库
    // _ "spider_lib_pte" // 同样你也可以自由添加自己的规则库
)


func main() {
    // 设置运行时默认操作界面,并开始运行
    // 运行软件前,可设置 -a_ui 参数为"web"、"gui"或"cmd",指定本次运行的操作界面
    // 其中"gui"仅支持Windows系统
    exec.DefaultRun("cmd")
}[/code]


配置pholcus.pkg下的config.ini


[mysql]
conncap=2048
connstring=root:password@tcp(127.0.0.1:3306)


go install 或者 go build pholcus.go


测试用例:./pholcus -_ui=cmd -a_mode=0 -c_spider=2 -a_outtype=mysql -a_thread=10 -a_dockercap=10 -a_pause=300 -a_proxyminute=0 -a_success=true -a_failure=true





  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值