一:常用的类库有
- HttpClient
- Jsoup(通常用来解析返回的html页面)
二:常用的框架有
- WebMajic
三:爬虫的大致流程
四:HttpClient的使用
1:依赖
<dependency>
<groupId>org.apache.httpcomponents</groupId>
<artifactId>httpclient</artifactId>
<version>4.5.13</version>
</dependency>
2:不带参数的get请求
public static void get() throws IOException {
//创建HttpClient对象