火车头采集-获取当前采集页面地址

本文讲述了在火车头采集器中,当需要保存分页采集页面的URL而原始URL中没有参数时,如何使用正则表达式从页面地址中提取数据的方法,包括设置标签和正则模式的步骤。作者还提到了不同版本的火车头操作一致性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

火车头是个不错的采集工具,可以很方便的采集一些临时性的任务,但是分页采集时可能会碰到,想将采集页面的url保存下来的需求,此时页面中没有对应的参数值时怎么办呢?

以前的版本有个直接保存URL的功能,现在没有了,改成了从URL中提取,接下来就教大家如何获取:
在这里插入图片描述
火车头采集器采集网址中url的参数数据。需要用到正则表达式:^(?[\s\S]*?)$

我们在火车头采集器中添加标签[当前页面地址],然后在数据来源中选择从“网页地址中”,提取方式选择“正则提取”。

点击预设好的“(??)”标签,下面内容框会出现“(?[\s\S]?)”,在这串字符前后分别加上一个字符就ok了。变成“^(?[\s\S]?)$”

Content:代表内容
?:表示匹配0次或者1次
\s:匹配所有空白字符,包括空格、换行、tab缩进等所有的空白
\S:与\s刚好相反,匹配所有非空白字符
*:修饰匹配次数为 0 次或任意次
[ ]:这个符号,表示在它里面包含的单个字符不限顺序的出现

在正则表达式中,美元符号 用于匹配一行的结尾,比如 " a b c 用于匹配一行的结尾,比如"abc 用于匹配一行的结尾,比如"abc“表示的是以abc结尾的行,”$"表示的是空行。符号是界定符,规定匹配以^后面开头的字符串

如果你想把采集页地址保存到本地文件可以直接使用[标签:当前页面地址] 这个就会把网址输出。

上面演示的是火车头V10.23进行的演示操作,在V9版本中也是一样的设置。

以上是个人留存笔记,也希望对大家有用。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值