
爬虫
文章平均质量分 86
一只猪的思考
兴趣使然,随缘更新
展开
-
WebMagic快速入门
一、WebMagic介绍WebMagic的结构分为Downloader、PageProcessor、Scheduler、Pipeline四大组件,并由Spider将它们彼此组织起来。这四大组件对应爬虫生命周期中的下载、处理、管理和持久化等功能。WebMagic的设计参考了Scapy,但是实现方式更Java化一些。而Spider则将这几个组件组织起来,让它们可以互相交互,流程化的执行,可以认为Spider是一个大的容器,它也是WebMagic逻辑的核心。1.1 WebMagic的四个组件1原创 2022-01-09 14:41:12 · 4523 阅读 · 0 评论 -
布隆过滤器详解(BloomFilter)以及其实现介绍
一、 三种去重方式1.HashSet使用java中的HashSet不能重复的特点去重。优点是容易理解。使用方便。缺点:占用内存大,性能较低。2.Redis去重使用Redis的set进行去重。优点是速度快(Redis本身速度就很快),而且去重不会占用爬虫服务器的资源,可以处理更大数据量的数据爬取。缺点:需要准备Redis服务器,增加开发和使用成本。3.布隆过滤器(BloomFilter)使用布隆过滤器也可以实现去重。优点是占用的内存要比使用HashSet要小的多,也适合大量数据的去原创 2022-01-09 14:23:49 · 755 阅读 · 0 评论 -
Java爬虫之HttpClient与Jsoup详解
一、HttpClient网络爬虫就是用程序帮助我们访问网络上的资源,我们一直以来都是使用HTTP协议访问互联网的网页,网络爬虫需要编写程序,在这里使用同样的HTTP协议访问网页。这里我们使用Java的HTTP协议客户端 HttpClient这个技术,来实现抓取网页数据。所需依赖<dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>h原创 2022-01-06 15:03:41 · 872 阅读 · 0 评论