一:使用的技术或原理
java爬虫实验我借助了jsoup类库,利用jsoup爬取指定URL的html页面,再对HTML进行进一步的解析。( java网络爬虫是从待抓取URL队列中取出待抓取在URL,解析DNS,并且得到主机的ip,并将URL对应的网页下载下来,存储进已下载网页库中。)
基本原理:由关键字指定的url把所有相关的html页面全抓下来(html即为字符串),然后解析html文本(通常是正则表达式或者现成工具包如JSoup),提取微博文本信息,然后把文本信息存储起来。
1 jsoup概述:
1.1 jsop简介
jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。
1.2 jsoup的主要功能
1)从一个URL,文件或字符串中解析HTML
2)使用DOM或CSS选择器来查找、取出数据
3)可操作HTML元素、属性、文本
注意:jsoup是基于MIT协议发布的,可放心使用于商业项目。
1.3 jsoup的主要使用的包(类)
1.3.1 org.jsoup.Jsoup类
1.3.2 org.jsoup.nodes.Document类
添加链接描述
1.3.2 org.jsoup.nodes.Elementt类