爬虫
文章平均质量分 92
伏念先生
勤能补拙
展开
-
WebMagic实现分布式抓取以及断点抓取
前言从去年到今年,笔者主要负责的是与合作方的内容对接,新增的合作商不是很多的情况下,在我自从去年引入了 WebMagic 这个爬虫框架之后,基本很少需要去关注维护爬虫,做的最多的是新接入合作商去写对应爬虫抓取模板。因为在代码中实现了增量抓取,单机也足以承担日常的抓取工作。在前两周,由于公司拓展新的业务渠道,需要接入的合作商瞬间增加了 3 倍,又被要求在 2 天内全部接入,那两天和另外一...转载 2018-11-12 17:26:28 · 795 阅读 · 0 评论 -
webmagic 下载https网页
一、增加对HTTPS协议的支持出现异常后,通过 Google 搜索了一下,找到了 WebMagic 作者黄大的解决方式,详见 Https下无法抓取只支持TLS1.2的站点于是按照黄大说的方式来做 首先复制源码中的 HttpClientGenerator 与 HttpClientDownloader 到自己的项目中。 修改 HttpClientGenerator 的代码,只需...原创 2018-11-23 16:35:22 · 2541 阅读 · 0 评论 -
Nutch2.3.1+MongoDB+ElasticSearch1.4.4 环境配置
前言:本博客是nutch本地运行的一篇配置实践笔记,不包含分布式运行配置1.环境准备Ubuntu 16.04jdk 1.8Ant 1.9.132.Mongodb安装1)mongodb数据库安装及基本概念学习参考:http://www.runoob.com/mongodb/mongodb-linux-install.html2)mongodb可视化工具:robomon...原创 2018-12-28 18:32:35 · 703 阅读 · 0 评论 -
webmagic+selenium模拟浏览器下载动态网页
现在绝大多数网页都是动态生成的,那么学习爬虫就意味着更加困难。若是静态网页,只需要了解如何连接网络和分析网页源代码提取标签信息即可,但是动态网页的话,就需要使用到一些特定的框架来爬取了。比较实用的爬取动态网页信息的其中一个工具就是selenium了。先来看看要怎样使用webmagic和selenium来模拟浏览器启动吧。import us.codecraft.webmagic.Spider;i...转载 2019-03-10 21:40:18 · 1648 阅读 · 0 评论