【使用JSOUP实现网络爬虫】从一个URL加载一个Document

最新推荐文章于 2022-04-05 21:03:14 发布

OkidoGreen

最新推荐文章于 2022-04-05 21:03:14 发布

阅读量1.3k

点赞数

分类专栏：爬虫-Jsoup

爬虫-Jsoup 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

存在问题

你需要从一个网站获取和解析一个HTML文档，并查找其中的相关数据。你可以使用下面解决方法：

解决方法

使用 Jsoup.connect(String url)方法:


 
 
  
  
   
   
    
    [java] 
    
    view plain
    
    copy
    
    print
    
    ?
    
    
   
   
  
  
  
  Document doc = Jsoup.connect("http://example.com/").get();  
String title = doc.title();

说明

connect(String url) 方法创建一个新的 Connection, 和 get() 取得和解析一个HTML文件。如果从该URL获取HTML时发生错误，便会抛出 IOException，应适当处理。

Connection 接口还提供一个方法链来解决特殊请求，具体如下：


 
 
  
  
   
   
    
    [java] 
    
    view plain
    
    copy
    
    print
    
    ?
    
    
   
   
  
  
  
  Document doc = Jsoup.connect("http://example.com")  
  .data("query", "Java")  
  .userAgent("Mozilla")  
  .cookie("auth", "token")  
  .timeout(3000)  
  .post();