火车头采集器采集教程

一、采集背景

  采集背景:采集简书文章标题、网址、阅读数

  目的:用来做数据分析

  使用工具:火车头采集器(火车采集器是一款互联网数据抓取、处理、分析,挖掘软件。)

  二、采集方法步骤说明

  步骤1:安装火车头采集器(注意:需要安装net4.0框架才能运行)

  火车头采集器下载地址:

  http://www.locoy.com/

  步骤2:注册账号

  步骤3:了解基本界面

  a.点击开始——>新建文件夹(并重新命名,以便你自己清楚采集的是什么)——>新建任务

  b.新建任务后,弹出设定任务规则框(以下几点要注意)

  (1)填写你所要采集的内容所在的网址。如果是有规律的话,可以通过【向导添加】相关规则,如下:简书为例,我要采集自己简书中的内容数据,进行分析。主要采集的内容在列表页,但因为简书采用的是惰性加载方式,翻页的内容我是无法采的,于是就需要查看源代码(这里需要懂一定代码知识的童鞋才能找到),然后在源代码中,找到相关的链接,而且是有规律的,于是我就可以通过【向导添加】添加相关规则。具体的规则继续看下面的步骤4.

  向导添加界面:

  步骤4:写网址提取规则

  我在源代码中找到的列表链接,要采集所有的链接就必须把所有的翻页找出来,翻页是有规律的,于是得到下面这个规则。只有链接中的“page=”后面的地址参数是变化的,于是我们可以对参数用[地址参数]进行设定。然后选择【地址参数】中的数字变化,因为是数字。共有14个,于是有14项。

  • 5
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值