虽然爬取的都是一些特别简单的数据。但是,为了避免出现什么经济纠纷,本人还是选择以爬取自己的博客为例来进行数据的爬取。
由于本人也是刚开始学习jsoup,如果有什么不应该出现的问题,欢迎各位批评指正。
本人的博客主页:https://blog.csdn.net/zqq_2016,按F12键检查代码。
如何爬取网页中的title标签内容、爬取meta标签中,content属性的内容
代码详情:
/**
* 解析URL
*
*/
@Test
public void testUrl() throws Exception {
//解析url地址,第一个参数是访问的url,第二个参数是访问时候的超时时间
Document document = Jsoup.parse(new URL("https://blog.csdn.net/zqq_2016"), 1000);
//使用标签选择器,获取title标签中的内容
String title = document.getElementsByTag("title").first().text();
//select选择器
String meta_content_k = document.select("meta[name=csdn-baidu-search]").get(0).attr("content");
String meta_content_d = document.select("meta[name=description]").get(0).attr("content");
//打印
System.out.println("title标签内容:"+title);
System.out.println("csdn-baidu-search:"+meta_content_k);
System.out.println("description:"+meta_content_d);
}
爬取数据的结果输出: