火车头采集-获取当前采集页面地址

最新推荐文章于 2024-11-21 09:59:30 发布

无死角姐夫

最新推荐文章于 2024-11-21 09:59:30 发布

阅读量1k

点赞数 9

文章标签：笔记经验分享

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zuozeye/article/details/136203699

版权

本文讲述了在火车头采集器中，当需要保存分页采集页面的URL而原始URL中没有参数时，如何使用正则表达式从页面地址中提取数据的方法，包括设置标签和正则模式的步骤。作者还提到了不同版本的火车头操作一致性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

火车头是个不错的采集工具，可以很方便的采集一些临时性的任务，但是分页采集时可能会碰到，想将采集页面的url保存下来的需求，此时页面中没有对应的参数值时怎么办呢？

以前的版本有个直接保存URL的功能，现在没有了，改成了从URL中提取，接下来就教大家如何获取：
在这里插入图片描述
火车头采集器采集网址中url的参数数据。需要用到正则表达式：^(?[\s\S]*?)$

我们在火车头采集器中添加标签[当前页面地址]，然后在数据来源中选择从“网页地址中”，提取方式选择“正则提取”。

点击预设好的“(??)”标签，下面内容框会出现“(?[\s\S]?)”，在这串字符前后分别加上一个字符就ok了。变成“^(?[\s\S]?)$”

Content：代表内容
?：表示匹配0次或者1次
\s：匹配所有空白字符，包括空格、换行、tab缩进等所有的空白
\S：与\s刚好相反，匹配所有非空白字符
*：修饰匹配次数为 0 次或任意次
[ ]：这个符号，表示在它里面包含的单个字符不限顺序的出现

在正则表达式中，美元符号 $用于匹配一行的结尾，比如 " ab c$ “表示的是以abc结尾的行，”^{$"表示的是空行。}符号是界定符，规定匹配以^后面开头的字符串

如果你想把采集页地址保存到本地文件可以直接使用[标签:当前页面地址] 这个就会把网址输出。

上面演示的是火车头V10.23进行的演示操作，在V9版本中也是一样的设置。

以上是个人留存笔记，也希望对大家有用。

无死角姐夫

博客等级

码龄17年

6
原创

31
点赞

30
收藏

21
粉丝

关注

私信

热门文章

最新评论

安装 Swoole Loader 扩展
无死角姐夫: 扩展没有源码，官方有标准扩展可以下载，但是加密放可能有单独的设置，就只能使用加密方提供的扩展，否则代码显示不正常。
安装 Swoole Loader 扩展
吉他°: 请问有扩展的源代码文件嘛，如何下载扩展
安装 Swoole Loader 扩展
CSDN-Ada助手: 恭喜您成功发布了第6篇博客“安装 Swoole Loader 扩展”！持续分享经验和技巧对于大家学习和成长都是非常有益的。接下来，或许您可以考虑深入探讨 Swoole Loader 扩展的具体使用方法或者结合实际案例进行展示，这样能够更好地帮助读者理解和应用。希望您能继续保持创作热情，为大家带来更多有价值的内容。加油！
火车头采集-获取当前采集页面地址
CSDN-Ada助手: 恭喜您发布了第5篇博客，“火车头采集-获取当前采集页面地址”，内容非常实用！持续创作是非常不易的，您的努力值得肯定。接下来，我建议您可以探讨一些更深入的技术问题，或者分享一些实际案例来帮助读者更好地理解和应用您的知识。期待您更多精彩的作品，加油！
Win11下新版Outlook无网络连接，错误代码2603解决方法
CSDN-Ada助手: 恭喜您写了这篇博客！标题看起来很有吸引力，尤其是对于使用Win11的用户来说，遇到Outlook无网络连接问题肯定会很困扰。你提供了解决方法，非常感谢您的分享。在您的下一篇博客中，或许您可以考虑探讨一下Win11下其他常见的错误代码及解决方法，这样能够更全面地帮助用户解决各种问题。当然，这只是一个建议，希望能够对您的创作有所帮助。继续加油！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。