http下载原理/断点续传方法

对于HTTP协议,向服务器请求某个文件时,只要发送类似如下的请求即可:

 

GET /Path/FileName HTTP/1.0 

Host: www.caiban.net:80

 Accept: */* 

User-Agent: GeneralDownloadApplication 

Connection: close 

  

每行用一个“回车换行”分隔,末尾再追加一个“回车换行”作为整个请求的结束。

 

第一行中的GET是HTTP协议支持的方法之一,方法名是大小写敏感的,HTTP协议还支持OPTIONS、HAED、POST、PUT、DELETE、TRACE、CONNECT等方法,而GET和HEAD这两个方法通常被认为是“安全的”,也就是说任何实现了HTTP协议的服务器程序都会实现这两个方法。

对于文件下载功能,GET足矣。GET后面是一个空格,其后紧跟的是要下载的文件从WEB服务器根开始的绝对路径。该路径后又有一个空格,

然后是协议名称及协议版本。 除第一行以外,其余行都是HTTP头的字段部分。Host字段表示主机名和端口号,如果端口号是默认的80则可以不写。

Accept字段中的*/*表示接收任何类型的数据。

User-Agent表示用户代理,这个字段可有可无,但强烈建议加上,因为它是服务器统计、追踪以及识别客户端的依据。

Connection字段中的close表示使用非持久连接。

 

关于HTTP协议更多的细节可以参考RFC2616(HTTP 1.1)。因为我只是想通过HTTP协议实现文件下载,所以也只看了一部分,并没有看全。 

如果服务器成功收到该请求,并且没有出现任何错误,则会返回类似下面的数据:

 

 

HTTP/1.0 200 OK 

 Content-Length: 13057672 Content-Type: application/octet-stream 

 Last-Modified: Wed, 10 Oct 2005 00:56:34 GMT 

 Accept-Ranges: bytes 

 ETag: "2f38a6cac7cec51:160c" 

 Server: Microsoft-IIS/6.0 

 X-Powered-By: ASP.NET 

 Date: Wed, 16 Nov 2005 01:57:54 GMT 

 Connection: close 

 

不用逐一解释,很多东西一看几乎就明白了,只说我们大家都关心内容吧。

 第一行是协议名称及版本号,空格后面会有一个三位数的数字,是HTTP协议的响应状态码,

200表示成功,OK是对状态码的简短文字描述。状态码共有5类:

1xx属于通知类;

2xx属于成功类;

3xx属于重定向类;

4xx属于客户端错误类;

5xx属于服务端错误类。

对于状态码,相信大家对404应该很熟悉,如果向一个服务器请求一个不存在的文件,就会得到该错误,通常浏览器也会显示类似“HTTP 404 - 未找到文件”这样的错误。

Content-Length字段是一个比较重要的字段,它标明了服务器返回数据的长度,这个长度是不包含HTTP头长度的。换句话说,我们的请求中并没有Range字段(后面会说到),表示我们请求的是整个文件,所以Content-Length就是整个文件的大小。其余各字段是一些关于文件和服务器的属性信息。

 

 

 

这段返回数据同样是以最后一行的结束标志(回车换行)和一个额外的回车换行作为结束,即“\r\n\r\n”。而“\r\n\r\n”后面紧接的就是文件的内容了,这样我们就可以找到“\r\n\r\n”,并从它后面的第一个字节开始,源源不断的读取,再写到文件中了。 

 

以上就是通过HTTP协议实现文件下载的全过程。但还不能实现断点续传,而实际上断点续传的实现非常简单,只要在请求中加一个Range字段就可以了。

 

假如一个文件有1000个字节,那么其范围就是0-999,则: Range: bytes=500-      表示读取该文件的500-999字节,共500字节。 

Range: bytes=500-599   表示读取该文件的500-599字节,共100字节。 

Range还有其它几种写法,但上面这两种是最常用的,对于断点续传也足矣了。如果HTTP请求中包含Range字段,那么服务器会返回206

(Partial Content),同时HTTP头中也会有一个相应的Content-Range字段,类似下面的格式:   

Content-Range: bytes 500-999/1000  

Content-Range

字段说明服务器返回了文件的某个范围及文件的总长度。这时

Content-Length

字段就不是整

个文件的大小了,而是对应文件这个范围的字节数,这一点一定要注意。

 

 

 

一切好像基本上没有什么问题了,本来我也是这么认为的,但事实并非如此。如果我们请求的文件的URL是类似http://www.server.com/filename.exe

这样的文件,则不会有问题。但是很多软件下载网站的文件下载链接都是通过程序重定向的,比如pchome的ACDSee的HTTP下载地址是: 

http://download.pchome.net/php/tdownload2.php?sid=5547&url=/multimedia/viewer/acdc31sr1b051007.exe&svr=1&typ=0

  

这种地址并没有直接标识文件的位置,而是通过程序进行了重定向。如果向服务器请求这样的URL,服务器就会返回302(Moved Temporarily),意思就是需要重定向,同时在HTTP头中会包含一个Location字段,Location字段的值就是重定向后的目的URL。这时就需要断开当前的连接,而向这个重定向后的服务器发请求。

 

#include 

<winsock2.h> 

#include 

<fstream> 

#pragma 

comment(lib, "ws2_32.lib ")  

using namespace std; 

 

#define 

BUFFSIZE 2048 

 

void

 main() 

 //初始化Socket函数库

 

WSADATA wsaData; 

 if(WSAStartup(MAKEWORD(2,0), &wsaData) || LOBYTE(wsaData.wVersion) != 2)  

return; 

  

struct

 protoent *ppe; 

 

ppe = getprotobyname(

"tcp"

); 

 

 

//

创建

SOCKEt

对象

 

 

SOCKET sock = socket(PF_INET, SOCK_STREAM, ppe->p_proto); 

 

if

(sock == INVALID_SOCKET) 

 

 

return

 

 

//

根据主机名获得

IP

地址

 

 

hostent* pHostEnt = gethostbyname(

"www.baidu.com"

); 

 

if(pHostEnt == NULL) 

 

 

return

 

 

int nTime = 10000; 

 

setsockopt(sock, SOL_SOCKET, SO_SNDTIMEO, (char*)&nTime, sizeof(nTime)); 

 

setsockopt(sock, SOL_SOCKET, SO_RCVTIMEO, (char*)&nTime, sizeof(nTime)); 

 

 

//连接 

struct

 in_addr ip_addr; 

 

memcpy(&ip_addr, pHostEnt->h_addr_list[0], 4); 

//haddr_list[0]里4个字节,每个字节8位

 

 

 

struct

 sockaddr_in destaddr; 

 

memset((

void

 *)&destaddr, 0, 

sizeof

(destaddr)); 

 

destaddr.sin_family = AF_INET; 

 

destaddr.sin_port = htons(80); 

 

destaddr.sin_addr = ip_addr; 

 

 

if

(0 != connect(sock,(

struct

 sockaddr*)&destaddr, 

sizeof

(destaddr))) 

 

 

return

 

 

//

格式化请求,各字段含义参见

HTTP

协议

RFC2616

 

 

char

 request[] = 

"GET / HTTP/1.1\r\n"

 

 

 

 

 

 

 

"Host:www.baidu.com\r\n"

 

 

 

 

 

 

 

"Accept:*/*\r\n"

 

 

 

 

 

 

 

"User-Agent:Mozilla/4.0 (compatible; MSIE 5.00; Windows 98)\r\n"

 

 

 

 

 

 

 

"Connection:Close\r\n\r\n"

 

 

//

发送请求

 

 

if

(SOCKET_ERROR == send(sock, request, strlen(request), 0)) 

 

 

return

 

 

//

接收网页信息并存储

 

 

int

 rcv_bytes = 0; 

 

char

 buf[BUFFSIZE] = {0,}; 

 

ofstream ofs(

"out.txt"

, ios::binary | ios::out | ios::trunc); 

 

 

 

rcv_bytes = recv(sock, buf, BUFFSIZE, 0); 

//

先接收服务器返回的报文至

 

"\r\n\r\n" 

 

 

 

while

(1) 

 

 

 

rcv_bytes = recv(sock, buf, BUFFSIZE, 0); 

 

 

if

(rcv_bytes <= 0) 

 

 

 

break

 

 

ofs.write(buf, rcv_bytes); 

 

 

 

ofs.close(); 

 

 

 

closesocket(sock); 

 

WSACleanup(); 

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
现在大部分的网站使用的是标准HTML的上传方式来上传文件。一般情况下标准HTML方式在网页中只能上传4MB左右的文件,如果访问的用户比较多的时侯这种方式容易上传失败。虽然标准HTML上传方式开发起来比较简单,但是这种方式用户体验比较差,上传的文件大小受到限制,所以如果我们需要上传上百或者更大的上G的文件时,HTML标准上传方式是无法满足我们的需求的。 而另一方面,随着互联网行业的发展用户产生的新的需求也越来越多,同时对用户体验也提出了更高的要求,传统的HTML方式也越来越难已满足新的用户需求。现在大部分的用户有文件批量上传的需求,希望只通过点击一次鼠标就能够批量的上传多张图片,而不是一张张的选择文件上传,这样操作即浪费时间又非常烦琐。 近年来,由于数码和影视行业的迅猛发展刺激了用户对大文件的上传需求,现在越来越多的用户希望能够通过WEB的方式上传更大的文件,比如电影和图片。这些类型的文件通常都非常大,一般都在500MB以上,高清的影视文件至少在1G以上。这样的大文件是根本无法通过标准HTML方式来上传的。 不仅如此,由于国内网络环境比较特殊,有许多地区的网络不够稳定,在上传文件的过程中可能会发生断网的情况。如果用户正在上传一个1000MB的文件,已经上传了500MB,这时网络出现问题上传中止了。那么下一次用户需要要重新上传前面的500MB,而不是从500MB开始上传,这将浪费用户的许多时间。 新颖网络HTTP文件断点续传控件是专门用于解决HTTP大文件上传的需求而开发的产品。通过我们的HttpPartition模块用户能够非常方便的一次性选择超过200个的文件。而且我们升级了用户体验,用户现在不仅能够通过点击按钮来选择多个文件,还可以通过HttpDroper来拖拽文件甚至是文件夹。 现在我们能够轻松支持2G左右的大文件上传。为了减轻服务器的压力在HttpUploader模块中我们并不是一次上传2G的数据,而是将2G化分为小的数据块,每次向服务器上传约128KB左右的数据。同时在每次上传的数据中附带了文件大小,起始位置,文件MD5等信息。对于开发人员来说,有了这些信息,断点续传功能将会变的和普通的文件上传功能一样简单。 相信新颖网络HTTP断点续传控件能够帮助您赢利市场。 版权所有 2009-2012 北京新颖网络 保留所有权利 官方网站:http://www.ncmem.com/ 产品首页:http://www.ncmem.com/webplug/http-uploader3/index.aspx 在线演示:http://www.ncmem.com/products/http-uploader/demo/index.html 产品介绍:http://www.cnblogs.com/xproer/archive/2012/02/17/2355440.html 开发文档-ASP:http://www.cnblogs.com/xproer/archive/2012/02/17/2355458.html 开发文档-PHP:http://www.cnblogs.com/xproer/archive/2012/02/17/2355467.html 开发文档-JSP:http://www.cnblogs.com/xproer/archive/2012/02/17/2355462.html 开发文档-ASP.NET:http://www.cnblogs.com/xproer/archive/2012/02/17/2355469.html 升级日志:http://www.cnblogs.com/xproer/archive/2012/02/17/2355449.html 示例下载http://www.ncmem.com/download/HttpUploader3-demo.rar 文档下载http://www.ncmem.com/download/HttpUploader3-doc.rar 问题反馈:http://www.ncmem.com/blog/guestbook.asp Windows数字证书补丁:http://www.ncmem.com/download/rootsupd.rar Microsoft Visual C++ 2008 Redistributable Package (x86):http://www.microsoft.com/download/en/details.aspx?displaylang=en&id=29

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值