python socket发送http请求

world_in_world

已于 2024-03-15 15:03:10 修改

阅读量459

点赞数 1

分类专栏： python爬虫文章标签： http 网络协议

于 2023-03-21 21:42:56 首次发布

本文链接：https://blog.csdn.net/world_in_world/article/details/129684579

版权

python爬虫专栏收录该内容

18 篇文章 0 订阅

订阅专栏

参考链接：

python用socket发送http请求 | 酷python

https://www.cnblogs.com/csnd/p/16465082.html

socket编程入门：1天玩转socket通信技术（非常详细）

socket发送http请求

浏览器也好，爬虫框架也罢，在最底层，都是在使用socket发送http请求，然后接收服务端返回的数据，浏览器会对返回的数据进行渲染，最终呈现在我们眼前，爬虫框架相比于浏览器，只是少了一个渲染的过程。下面的代码演示了socket发送http请求的过程：


import socket
import re

url = 'http://image11.m1905.cn/uploadfile/2021/0922/thumb_0_647_500_20210922030733993182.jpg'
host = 'image11.m1905.cn'
port = 80
# 创建TCP socket
client = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
# 连接服务端
client.connect((host, port))
# 构造请求头
http_request = 'GET ' + url + ' HTTP/1.0\r\nHost: image11.m1905.cn\r\nUser-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36\r\n\r\n'
# http_request = 'GET ' + url + ' HTTP/1.1\r\nHost: image11.m1905.cn\r\nConnection: close\r\nUser-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36\r\n\r\n'
print(http_request)
# 发送网络请求
client.send(http_request.encode())
response = b''
# 接收响应数据
receive = client.recv(1024)
while receive:
    response += receive
    receive = client.recv(1024)
# print(response)
# print(response.decode())
img = re.findall(b'\r\n\r\n(.*)', response, re.S)[0]
# print(img)
with open('小姐姐.png', 'wb') as f:
    f.write(img)
client.close()

请求头的每一部分都有各自的作用。在请求头和请求体之间，有两次换行，由于我们发送的是GET请求，没有请求体，因此两个换行后就结束了。

对于HTTP/1.1，需定义Connection: close，如果不定义，默认是Connection: keep-alive，如果Connection的值是keep-alive，那么服务端在返回数据后不会断开连接，而是允许客户端继续使用这个连接发送请求，而设置成close，目的就是让服务端主动断开，这样当程序在运行while循环时，在接收完所有数据后，client.recv(1024) 的返回值就是None，这样while循环就停止了。如果Connection的值是keep-alive，就无法通过连接断开来判断数据是否已经全部接收，只能通过返回数据的请求头来获取数据的长度，进而确定本次请求返回数据的多少。对于HTTP/1.0，默认是Connection: close，即可。