java爬虫——Jsoup

最新推荐文章于 2024-02-25 13:30:46 发布

weixin_46111223

最新推荐文章于 2024-02-25 13:30:46 发布

阅读量1.2k

点赞数

分类专栏： Java爬虫文章标签： java 爬虫 html

本文链接：https://blog.csdn.net/weixin_46111223/article/details/130509793

版权

Java爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Jsoup解析页面

①　通过HttpClient抓取到页面后，还需对页面进行解析，可以使用字符串处理工具解析页面，也可以使用正则表达式，也可以使用一款专门解析html页面的技术。

②　Jsoup是一个可以解析html的工具包，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

③　主要功能：
a.从一个URL，文件或字符串中解析HTML；
b.使用DOM或CSS选择器来查找、取出数据；
c.可操作HTML元素、属性、文本；

Jsoup的使用方法：

添加Jsoup相关的jar包

<!--Jsoup-->
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.10.3</version>
</dependency>
<!--测试-->
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>4.12</version>
</dependency>
<!--工具-->
<dependency>
<groupId>org.apache.commons</groupId>
<artifactId>commons-lang3</artifactId>
<version>3.7</version>
</dependency>
<dependency>
<groupId>commons-io</groupId>
<artifactId>commons-io</artifactId>
<version>2.6</version>
</dependency>

使用Jsoup.parse（）（Jsoup类里面的parse方法）：来解析页面，但这个方法是一个重载方法，有很多种类型参数：url（可通过url把页面加载到本地再进行解析，跟httpclient功能相像，但使用不多）、本地路径（直接解析保存到磁盘上的html）、string类型的变量。
进行解析之后就可以得到一个document对象
然后可以使用document对象的一些方法来解析

@Test
public void testJsoupUrl() throws Exception {
   //解析url地址,参数1：url，参数2：超时时间，单位是毫秒
   //使用Jsoup创建一个Document对象
   Document document = Jsoup.parse(new URL("http://www.itcast.cn/"), 1000);

//若进行一个本地文件路径的html文件进行解析，如下
//参数1：本地文件路径，参数2：文件编码格式
Document document = Jsoup.parse(new File("D:\\jsoup.html"),"UTF-8");

//若进行一个string类型变量进行解析
//通过读取文件获取html内容
 String html = FileUtils.readFileToString(new File("D:\\jsoup.html"), "UTF-8");
 //解析字符串
 Document document = Jsoup.parse(html);

   //解析页面，用document对象的getElementsByTag（）方法，通过识别标签对title来获取title的内容
   Element title = document.getElementsByTag("title").first();
   //text（）方法，只保留标签对里面的文本信息
   System.out.println(title.text());
}

解析html的两种方法：

使用document对象自带的方法解析

document.getElementsByTag（String
tagName）：根据标签名称来选择节点，注意elements本身是一个集合，集合的遍历打印

For(Elenment elemen : es3){
System.out.println(element);}

document.getElementsById（String id）：根据id来选择节点
Elements.attr(String attributeKey—属性名)：取节点某个属性的值
document.getElementsByClass（String className）：根据class来选择节点
document.getElementsByAttribute（String key）：根据属性选择节点
document.getElementsByAttributeValue（String key,String value）:根据属性值选择节点
从元素中获取相应的数据

//1.   从元素中获取id
   String str = element.id();
//2.   从元素中获取className
   str = element.className();
//3.   从元素中获取属性的值attr
   str = element.attr("id");
//4.   从元素中获取所有属性attributes
   str = element.attributes().toString();
//5.   从元素中获取文本内容text
   str = element.text();

Css选择器
document.select（参数可以是：标签，#ID值，.class名称，[属性]，[属性=属性值]）

 // tagname: 通过标签查找元素，比如：span
   Elements span = document.select("span");

// #id: 通过ID查找元素，比如：#city_bjj
       String str = document.select("#city_bj").text();

// .class: 通过class名称查找元素，比如：.class_a
       str = document.select(".class_a").text();

// [attribute]: 利用属性查找元素，比如：[abc]
       str = document.select("[abc]").text();

// [attr=value]: 利用属性值来查找元素，比如：[class=s_name]
       str = document.select("[class=s_name]").text();

CSS选择器组合解析

el#id: 元素+ID，比如： document.select("h3#city_bj")
el.class: 元素+class，比如：document.select("li.class_a")
el[attr]: 元素+属性名，比如： document.select("span[abc]")
任意组合: 比如：document.select("span[abc].s_name")
ancestor （空格不能漏）child: 查找某个元素下子元素，比如：.city_con li 查找"city_con"下的所有li，document.select(".city_con li")
parent > child: 查找某个父元素下的直接子元素，比如：.city_con > ul > li 查找city_con第一级（直接子元素）的ul，再找所有ul下的第一级li，document.select(".city_con > ul > li")
parent > *: 查找某个父元素下所有直接子元素，document.select(".city_con > *")