java net包

常用类

URL
Class URL表示统一资源定位符,指向万维网上的“资源”的指针。通常由传输协议,主机名和主机中的路径构成
http://www.test.com/index.html?query=x#chapter1
getProtocol()— http
getHost()—www.test.com
getPath()—index.html
getPort()— 未指定为-1
getDefaultPort()-- 80 默认端口号
getQuery()— query=x 查询参数
getRef()— chapter1 定位片段
URLConnection
表示应用程序和URL之间的通信链接的所有类的超类。 该类的实例可以用于从URL引用的资源中读取和写入。
HttpURLConnection
支持HTTP特定功能的URLConnection。
setRequestMethod(“GET”)
getResponseCode()
setDoOutput(true) 默认false
setDoInput(true); 默认true
setConnectTimeout(int) 连接超时
setReadTimeout(int) 资源读取数据超时
setInstanceFollowRedirects 设置本次连接自动重定向
setRequestProperty(“Content-Type”,“application/”)设置请求头信息
特点
1.getInputStream后getOutputStream自动关闭
2.openConnection()方法只建立了连接未将请求发送到服务器
3.getResponseCode、getInputStream会自动调用connect方法
4.http属性绑定需要在connect方法前进行
5.需设置连接超时和读取超时防止程序堵塞
5.向流中写入的数据不会立即发送到网络
InetAddress
此类表示Internet协议(IP)地址。
getLocalHost()获得当前主机ip地址
Socket
实现客户端套接字,实际工作由SocketImpl类的实例执行。
构造方法
Socket(InetAddress address, int port)
Socket(InetAddress address, int port, InetAddress localAddr, int localPort)
创建套接字并将其连接到指定的远程端口上指定的远程地址。
ServerSocket
实现了服务器套接字。
构造方法
ServerSocket(int port)
创建绑定到指定端口的服务器套接字。

//爬取网站出现403
设置User-Agent欺骗服务器
//下载txt返回206部分内容响应
设置range头部
//url存在中文
URLEncode后再发送
//application/x-www-form-urlencoded格式post传数据
使用DataOutputStream传输成功

问题—多线程下载
1.爬取过程中会出现程序堵塞。
2.爬取时间过慢
3.爬取网站本身问题,部分章节无法解析。

创建文件,取出最新章节,创建线程池,多线程下载,同步写入内容。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值