爬虫
Courage-He
编程小白,在线代练!
展开
-
拉勾网爬取(HttpClient)
拉勾网爬取(HttpClient) 一、概述 Java许多框架都是以httpclient作为基础的,比如Webmagic。因此学会httpClient的爬取是至关重要的。业界成熟的爬虫框架会对httpClient做一个基本的封装,使爬虫更益于上手,避免了繁杂重复的工作。但是大多数网站的反爬措施多种多样,框架是难以考虑进去的,因此重写框架的下载部分是很常见的。 二、分析拉勾网页 这是一个最近...原创 2019-11-03 16:29:15 · 474 阅读 · 1 评论 -
拉勾网爬取(WebMagic+Selenium+ChromeDriver)
拉勾网爬取(自动化) WebMagic+Selenium+ChromeDriver实现浏览器自动化抓取。 网页反扒做到难以破解的情况下,采用selenium模拟浏览器自动爬取可谓是一个好方法,模拟用户浏览器的操作可以更简易的破解许多问题。如果网页是动态生成的话,用selenium也是正确的选择。 一、Maven依赖配置 <dependencies> <!--web...原创 2019-10-28 16:56:39 · 2541 阅读 · 0 评论 -
Jsoup解析HTML
Jsoup解析HTML Jsoup是一款Java的HTML解析器,可以直接解析某个URL地址,也可以解析HTML内容。其主要的功能包括解析HTML页面,通过DOM或者CSS选择器来查找、提取数据,可以更改HTML内容,HTML文档过滤清理。 一、文档清理 1、字符串转化 String html = "<html><div id=\"blog_list\"><div...原创 2019-10-20 14:39:32 · 453 阅读 · 0 评论 -
HttpClient使用
参考:https://www.cnblogs.com/ITtangtang/p/3968093.html#a6原创 2019-10-20 02:08:57 · 236 阅读 · 0 评论