参考链接:
python用socket发送http请求 | 酷python
https://www.cnblogs.com/csnd/p/16465082.html
socket编程入门:1天玩转socket通信技术(非常详细)
socket发送http请求
浏览器也好,爬虫框架也罢,在最底层,都是在使用socket发送http请求,然后接收服务端返回的数据,浏览器会对返回的数据进行渲染,最终呈现在我们眼前,爬虫框架相比于浏览器,只是少了一个渲染的过程。下面的代码演示了socket发送http请求的过程:
import socket
import re
url = 'http://image11.m1905.cn/uploadfile/2021/0922/thumb_0_647_500_20210922030733993182.jpg'
host = 'image11.m1905.cn'
port = 80
# 创建TCP socket
client = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
# 连接服务端
client.connect((host, port))
# 构造请求头
http_request = 'GET ' + url + ' HTTP/1.0\r\nHost: image11.m1905.cn\r\nUser-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36\r\n\r\n'
# http_request = 'GET ' + url + ' HTTP/1.1\r\nHost: image11.m1905.cn\r\nConnection: close\r\nUser-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36\r\n\r\n'
print(http_request)
# 发送网络请求
client.send(http_request.encode())
response = b''
# 接收响应数据
receive = client.recv(1024)
while receive:
response += receive
receive = client.recv(1024)
# print(response)
# print(response.decode())
img = re.findall(b'\r\n\r\n(.*)', response, re.S)[0]
# print(img)
with open('小姐姐.png', 'wb') as f:
f.write(img)
client.close()
请求头的每一部分都有各自的作用。在请求头和请求体之间,有两次换行,由于我们发送的是GET请求,没有请求体,因此两个换行后就结束了。
对于HTTP/1.1,需定义Connection: close,如果不定义,默认是Connection: keep-alive, 如果Connection的值是keep-alive,那么服务端在返回数据后不会断开连接,而是允许客户端继续使用这个连接发送请求,而设置成close,目的就是让服务端主动断开,这样当程序在运行while循环时,在接收完所有数据后,client.recv(1024) 的返回值就是None,这样while循环就停止了。如果Connection的值是keep-alive,就无法通过连接断开来判断数据是否已经全部接收,只能通过返回数据的请求头来获取数据的长度,进而确定本次请求返回数据的多少。对于HTTP/1.0,默认是Connection: close,即可。