爬虫
爬虫
这个作者很懒,什么都没留下…
展开
-
XPath语法
选取节点 表达式 描述 nodename 选取此节点的所有子节点。 / 从根节点选取。 // 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。 . 选取当前节点。 … 选取当前节点的父节点。 @ 选取属性。 谓语 谓语用来查找某个特定的节点或者包含某个指定的值的节点。 谓语被嵌在方括号中 表达式 含义 /bookstore/book...原创 2019-11-27 18:18:48 · 301 阅读 · 0 评论 -
WebMagic
架构解析 WebMagic项目代码分为核心和扩展两部分。核心部分(webmagic-core)是一个精简的、模块化的爬虫实现,而扩展部分则包括一些便利的、实用性的功能。扩展部分 (webmagic-extension)提供一些便捷的功能,例如注解模式编写爬虫等。同时内置了一些常用的组件,便于爬虫开发。 WebMagic的设计目标是尽量的模块化,并体现爬虫的功能特点。这部分提供非常简单、灵活的API...原创 2019-11-27 17:48:10 · 973 阅读 · 0 评论 -
谈谈网络爬虫
什么是网络爬虫 在大数据时代,信息的采集是一项重要的工作,而互联网中的数据是海量的,如果单纯 靠人力进行信息采集,不仅低效繁琐,搜集的成本也会提高。如何自动高效地获取互联网 中我们感兴趣的信息并为我们所用是一个重要的问题,而爬虫技术就是为了解决这些问题 而生的。 网络爬虫(Web crawler)也叫做网络机器人,可以代替人们自动地在互联网中进行数 据信息的采集与整理。它是一种按照一定的规则,自动...原创 2019-11-27 17:32:49 · 376 阅读 · 0 评论