火车头采集-获取当前采集页面地址

火车头是个不错的采集工具,可以很方便的采集一些临时性的任务,但是分页采集时可能会碰到,想将采集页面的url保存下来的需求,此时页面中没有对应的参数值时怎么办呢?

以前的版本有个直接保存URL的功能,现在没有了,改成了从URL中提取,接下来就教大家如何获取:
在这里插入图片描述
火车头采集器采集网址中url的参数数据。需要用到正则表达式:^(?[\s\S]*?)$

我们在火车头采集器中添加标签[当前页面地址],然后在数据来源中选择从“网页地址中”,提取方式选择“正则提取”。

点击预设好的“(??)”标签,下面内容框会出现“(?[\s\S]?)”,在这串字符前后分别加上一个字符就ok了。变成“^(?[\s\S]?)$”

Content:代表内容
?:表示匹配0次或者1次
\s:匹配所有空白字符,包括空格、换行、tab缩进等所有的空白
\S:与\s刚好相反,匹配所有非空白字符
*:修饰匹配次数为 0 次或任意次
[ ]:这个符号,表示在它里面包含的单个字符不限顺序的出现

在正则表达式中,美元符号 用于匹配一行的结尾,比如 " a b c 用于匹配一行的结尾,比如"abc 用于匹配一行的结尾,比如"abc“表示的是以abc结尾的行,”$"表示的是空行。符号是界定符,规定匹配以^后面开头的字符串

如果你想把采集页地址保存到本地文件可以直接使用[标签:当前页面地址] 这个就会把网址输出。

上面演示的是火车头V10.23进行的演示操作,在V9版本中也是一样的设置。

以上是个人留存笔记,也希望对大家有用。

  • 9
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值