爬虫
文章平均质量分 88
爬虫技术实践
catch that elf
一辈子很短,努力的做好两件事就好;第一件事是热爱生活,好好的去爱身边的人;第二件事是努力学习,在工作中取得不一样的成绩,实现自己的价值,而不是仅仅为了赚钱;
展开
-
JAVA网络爬虫02-Jsoup解析爬取结果
文章目录环境准备Jsoup创建文档从url创建文档从字符串、文件创建文档解析文档元素获取元素中获取数据使用选择器语法查找元素测试代码jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。jsoup的主要功能如下:从一个URL,文件或字符串中解析HTML;使用DOM或CSS选择器来查找、取出数据;可操作HTML元素、属性、文本;环境准备引入maven依赖&l原创 2020-11-02 11:08:22 · 611 阅读 · 0 评论 -
JAVA网络爬虫01-http client爬取网络内容
文章目录引入maven依赖http Get请求http POST请求httpClient 连接池网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。我们一直以来都是使用HTTP协议访问互联网的网页,网络爬虫需要编写程序,在这里使用同样的HTTP协议访问网页。这里我们使用Java的HTTP协议客户端 HttpClient这个技术,来实现抓取网页数据。引入maven依赖 <!-- HttpClient --> <dependency&g原创 2020-11-02 10:41:23 · 752 阅读 · 0 评论