不用代码免费采集网站内容_看一遍就能上手的火车头采集图文全流程教程

最新推荐文章于 2025-03-21 20:26:07 发布

陈荣晶

最新推荐文章于 2025-03-21 20:26:07 发布

阅读量1.4k

点赞数 2

文章标签： python 经验分享

本文链接：https://blog.csdn.net/weixin_44439208/article/details/128652151

版权

该文详细介绍了如何使用火车头采集器(LocoySpider)进行网页内容采集，包括设置网址规则、采集内容、下载图片、导入数据库以及发布内容的步骤。特别强调了如何设置规则避免重复和如何提取并存储文章的第一张图片。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

火车采集器(LocoySpider) 是一个供各大主流文章系统，论坛系统等使用的多线程内容采集，支持采集其他网站文章、下载下本地，统一上传到指定文件夹。
火车头采集规则是什么，怎么样设置火车头采集规则？
前沿：如果你对火车头一点都不知道，你还是去网上自学一点火车头采集的知识，我也不是什么大师，硬着头皮写的，至少能用，在这里我不会教你如何写采集规则，因为写法种类太多，你问我我也不知道，火车头相关文件夹里提供的发布接口内置了马甲发布文章，并且支持远程图片抓取本地化，和发布文章时间设置（10-70分钟随机）。用户只需关注火车头标题和内容即可，参数值标题（title),内容（content)。

火车头采集器采集文章使用教程实例

任务：
采集某一个指定页面的文章包括（标题、图片、描述、内容）导入到自己网站数据库对应栏目（栏目id为57），数据库字段分别（title,thumb,descrption,content）。
页面里面第一张图作为文章缩略图，这边一个获取缩略图名称并添加上对应网站路径放入数据库thumb字段，另一个是下载下本地，统一上传到指定文件夹，（当然看软件可以直接ftp，目前还没弄，后期弄了会补充）
1、新建分组–新建任务
火车头采集任务栏

2、添加网址+ 编辑获取网址的规则
火车头采集器获取网址规则设置

选择范围在 ul 里面的 li 里面的链接，注意排除重复地址，可以点击下面测试网址采集获取。
火车头采集网址设置

可以看到有采集到的文章链接了。
火车头采集网站内容

3、采集内容规则
我这边需要采集下面图上展示数据（catid是栏目id，可以将采集到的数据放入对应栏目，设置固定值就好）

着重说下内容和图片的采集，标题和描述同理内容采集
网站内容采集

内容采集：
打开一个采集的文章页面，查看源代码（禁了右键的f11 或者在网址前面加上 view-source: 一样可以查看）：
选中文章开头一个位置，截取一段在ctrl+f 搜下是否唯一一段，若是就可以放在位置下图1处，结尾同开头一样。
我截取内容不想里面还带有链接图片可以数据处理，添加–html标签排除–选好确定–确定
火车头采集网站内容方法