网页数据采集爬虫研究

 

数据采集的方式

采用国内现成的采集工具

通用类:

如火车头,八爪鱼等,gooseeker.com等,有配置页面,可定义规则,八爪鱼号称有抓取国内主流电商网站的版本。

专用类

天猫店铺商品采集工具 v1.0免费版

http://www.cncrk.com/downinfo/71232.html

 

http://bbs.locoy.com/spider-132726-1-1.html

火车头:采集天猫商品,包括商品的名称,商品详情,商品价格,还有商品评价的第一页,如何要采集评论的多页请直接联系企业qq80019423,天猫采集比较复杂,商品的详情和商品价格都和商品名称不在同一个页面,需要使用多页
采集结果截图:

 

淘宝天猫数据采集 直接发布到ecshop网店

http://bbs.ecshop.com/thread-1178827-1-1.html

 

购买数据采集公司的服务

http://www.site-digger.com/html/services/

http://knowlesys.cn

 

提供API服务的公司

如API.MANMANBUY.COM

 

大网站提供的API

如TAOBAO, JD AMAZON等大的网站有直接提供API

采用开源的框架,二次开发

目前主要有基于JAVA的:Heritrix,Crawler4j,NUTCH, webmagic等

基于python的scrapy

Heritrix

Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。Heritrix的优点是爬虫定制参数多,缺点是单实例的爬虫,之间不能进行合作。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值