火车头是个不错的采集工具,可以很方便的采集一些临时性的任务,但是分页采集时可能会碰到,想将采集页面的url保存下来的需求,此时页面中没有对应的参数值时怎么办呢?
以前的版本有个直接保存URL的功能,现在没有了,改成了从URL中提取,接下来就教大家如何获取:
火车头采集器采集网址中url的参数数据。需要用到正则表达式:^(?[\s\S]*?)$
我们在火车头采集器中添加标签[当前页面地址],然后在数据来源中选择从“网页地址中”,提取方式选择“正则提取”。
点击预设好的“(??)”标签,下面内容框会出现“(?[\s\S]?)”,在这串字符前后分别加上一个字符就ok了。变成“^(?[\s\S]?)$”
Content:代表内容
?:表示匹配0次或者1次
\s:匹配所有空白字符,包括空格、换行、tab缩进等所有的空白
\S:与\s刚好相反,匹配所有非空白字符
*:修饰匹配次数为 0 次或任意次
[ ]:这个符号,表示在它里面包含的单个字符不限顺序的出现
在正则表达式中,美元符号 用于匹配一行的结尾,比如 " a b c 用于匹配一行的结尾,比如"abc 用于匹配一行的结尾,比如"abc“表示的是以abc结尾的行,”$"表示的是空行。符号是界定符,规定匹配以^后面开头的字符串
如果你想把采集页地址保存到本地文件可以直接使用[标签:当前页面地址] 这个就会把网址输出。
上面演示的是火车头V10.23进行的演示操作,在V9版本中也是一样的设置。
以上是个人留存笔记,也希望对大家有用。