不用代码免费采集网站内容_看一遍就能上手的火车头采集图文全流程教程

火车采集器(LocoySpider) 是一个供各大主流文章系统,论坛系统等使用的多线程内容采集,支持采集其他网站文章、下载下本地,统一上传到指定文件夹。
火车头采集规则是什么,怎么样设置火车头采集规则?
前沿:如果你对火车头一点都不知道,你还是去网上自学一点火车头采集的知识,我也不是什么大师,硬着头皮写的,至少能用,在这里我不会教你如何写采集规则,因为写法种类太多,你问我我也不知道,火车头相关文件夹里提供的发布接口内置了马甲发布文章,并且支持远程图片抓取本地化,和发布文章时间设置(10-70分钟随机)。用户只需关注火车头标题和内容即可,参数值标题(title),内容(content)。

火车头采集器采集文章使用教程实例

任务:
采集某一个指定页面的文章包括(标题、图片、描述、内容)导入到自己网站数据库对应栏目(栏目id为57),数据库字段分别(title,thumb,descrption,content)。
页面里面第一张图作为文章缩略图,这边一个获取缩略图名称并添加上对应网站路径放入数据库thumb字段,另一个是下载下本地,统一上传到指定文件夹,(当然看软件可以直接ftp,目前还没弄,后期弄了会补充)
1、新建分组–新建任务
火车头采集任务栏

2、添加网址+ 编辑获取网址的规则
火车头采集器获取网址规则设置

选择范围在 ul 里面的 li 里面的链接,注意排除重复地址,可以点击下面测试网址采集获取。
火车头采集网址设置

可以看到有采集到的文章链接了。
火车头采集网站内容

3、采集内容规则
我这边需要采集下面图上展示数据(catid是栏目id,可以将采集到的数据放入对应栏目,设置固定值就好)
采集内容规则

着重说下内容和图片的采集,标题和描述同理内容采集
网站内容采集

内容采集:
打开一个采集的文章页面,查看源代码(禁了右键的f11 或者在网址前面加上 view-source: 一样可以查看):
选中文章开头一个位置,截取一段在ctrl+f 搜下是否唯一一段,若是就可以放在位置下图1处,结尾同开头一样。
我截取内容不想里面还带有链接图片可以数据处理,添加–html标签排除–选好确定–确定
火车头采集网站内容方法

还有需要下载页面图片,勾选和填写下面选项
采集网站内容的方法

图片采集:
(1)选中范围和内容一样(文章内图片)
(2)数据处理选 提取第一张图片 内容是:http://www.xxx.com/2017/33/aa.jpg
(3)只要aa.jpg,正则过滤 .+/(.+)$
网站图片采集

,获取内容:aa.jpg
(4)数据库存储有前缀,添加上, upload/xxxxx/
网站内容采集

找一个页面测试一下,可以看到对应项目都获取到了。
网站采集内容测试

4、发布内容设置,这里以方式三发布到数据库为例子,编辑后回到这边勾选刚定义的模块就好:
网站内容设置

5、我需要保存图片到本地,要设置下保存文件的路径(ftp后续会试着使用)。
采集网站内容保持

6、保存,查看刚新建的任务,右键 开始任务运行,这边就可以看到文字和图片都下载下来了,数据库里面也可以看到了。
采集网站内容查看进度

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值