WebMagic
悟能的师兄
有竞者、事竟成
展开
-
爬虫(第一篇) IP代理池
搞虫子的都知道,IP代理是必要的方法,为什么?这个大家知道就好了,最近写了个IP代理池,给大家围观一下:开始。首先咱们找到一个免费的IP代理网站,读取人家的数据,但是注意了,注意频率 别把人家给搞崩了第一:线程池,多个线程检测package com.*.util.thread;import org.apache.log4j.Logger;import java.util.concurrent.ExecutorService;import java.util.concurrent.Ex原创 2021-01-27 16:31:01 · 6558 阅读 · 10 评论 -
ChromeDriver PageLoadStrategy 使用配置
问题引出:目标网站应用数据分析工具【百度、数据联盟】等外部分析网站,加载页面起来懂不懂几十秒。而ChromeDriver默认是必须等所有的资源加载完,才进我们的页面分析处理过程中来。这一切非常恼火技术点:selenium ChromeDriver PageLoadStrategyChrome其中PageLoadStrategy有三种选择:(1) NONE: 当html下载完成之...原创 2019-08-21 14:35:03 · 12301 阅读 · 1 评论