数据采集工具选型

今天得知自己写的爬虫工具公司不想使用,还有很多待完善的地方,领导想压缩时间要在市面选择便宜且流行并功能强大的采集工具。这就难倒我了,这几点凑到一起,可以说是微乎其微。

下面简单介绍一下我看的几款采集工具,有不足或说的不对的地方,请大家指正。

一、八爪鱼采集器

这个采集器功能强大,基本满足需求,但是价格太贵,就这一个原因就被停止继续研究了。

不过这个采集器自己觉得就算是比较人性化的数据采集器(个人版已经够自己玩的了,但想要企业持久使用还需购买,30万!!!)

二、熊猫智能采集V3.5

熊猫采集器感觉略微有那么一点不够人性化,每个步骤都可能遇到你想象不到的问题,比较麻烦。我遇到的问题是不能加载我的业务系统的页面的样式(一版传统的网页爬取还可以)。还有个主要的问题,他不支持私有云部署。打个比方,我如果买了这款工具,我必须在服务器上安装一个熊猫,在那开着,怎么想都很别扭。

三、爬山虎采集器 v2.4.9.0

这款采集器还是比较受大家欢迎的,客服也很乐于帮助我这种爱问的人。帮我解答了很多疑问。基本功能都可以支持。但是我们有个重复数据判定的需求,他满足不了,就被我们pass了。但个人认为,他仅次于八爪鱼。

四、ForeSpider

这款采集器刚打开时,给我眼前一亮的感觉。但是,他连我们的业务系统的登录页都加载不出来,样式没有,按钮也没有。同时他也不支持私有云部署。能干啥啊,爬取网页我试都没试,没啥心情,可能有长处吧。毕竟还活着。

五、后羿采集器

后羿采集器从客服了解到,他们的验证码功能下线了,必须手动打码。并且不支持私有云部署。最后选中了他,哇偶。为啥?可能因为它能为我定制开发吧。

六、TRS InfoRadar

最后看了一下这个采集工具,采集网站页面及其方便、好用。但是不支持业务系统的采集。最后他也中标了。我们用它来采集所有网页信息。

 

其实我想说,爬虫很好整。那我为啥不整呢?因为懒。完善所有的产品线,需要时间,给我6个月也差不多(吹个真实的牛)。本人前面的博客有介绍爬虫的具体功能,适合定制编程,但不适合产品型编程。谢谢阅读,有说的不对的地方,也请大家多多指正。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值