十行C++代码实现高性能HTTP服务 && 原理与实现

实战 干货!!


话不多说,我们来一起看看,10行C++代码怎么实现一个高性能的Http服务,轻松QPS几十万

int main() {
    WFHttpServer server([](WFHttpTask *task) {
        task->get_resp()->append_output_body("<html>Hello World!</html>");
    });
    if (server.start(8888) == 0) {
        getchar(); // press "Enter" to end.
        server.stop();
    }
    return 0;
}
在这里插入代码片

这个server使用了workflow,介绍以下安装运行过程

➜ git clone https://github.com/sogou/workflow
➜ cd workflow
➜ make
➜ cd tutorial
➜ make
➜ ./helloworld
在这里插入代码片

代码在 tutorial 目录,编译后的 helloworld 可以直接运行,侦听在 8888 端口,curl 即可访问:

➜ curl -i http://localhost:8888
HTTP/1.1 200 OK
Content-Length: 25
Connection: Keep-Alive

<html>Hello World!</html>
在这里插入代码片

伴随着以上这10行代码,我们详细地解读:

我们选用 Http 协议,因此构造了一个WFHttpServer;
一次网络交互就是一次任务,因为是 Http 协议,因此我们是WFHttpTask;
对server来说,我的交互任务就是收到请求之后,填好回复,这些通过:task->get_req()和task->get_resp()可以获得;
逻辑在一个函数中(即上面的 lambda),表示收到消息之后要做的事情,这里填了一句 “Hello World!”;
Server启动和退出使用start()和stop()两个简单的api,而中间要用getchar();卡住,是因为 workflow 是个纯异步的框架。

纯异步就是这个 Http 服务器的高性能所在:

第一,多线程提供服务

如果我们收到请求之后在这个函数里做了一些阻塞的事情(比如等锁、io请求或者忙碌的计算等),那么再有用户请求我的时候,我就没有线程去处理新用户了

第二,网络线程和执行线程有优秀的调度策略

再多的线程也可能会有被霸占完的时候。我们需要无论 server 函数想要做任何耗时的操作,都不会影响到网络线程

第三,以 linux 为例,对epoll的封装高效好用

如果服务只打算支持一万的QPS,其实底层怎么实现都很简单,但如果我们希望十万,甚至接近百万,则我们对server底层做收发的I/O模型有非常高的要求

我们来看看 workflow 是怎么来实现以上这些高并发能力:
在这里插入图片描述
基于以上的架构,基于 workflow 的 server 轻轻松松就可以达到几十万 QPS,高吞吐、低成本、开发快,完美支撑了搜狗的所有后端在线服务!详细代码实现请参考 workflow 源码。然后我们以数据说话,通过跟名誉全球的高性能 Http 服务器 nginx 和国内开源框架先驱 brpc 一起做比较,看一下固定数据长度下 QPS 与并发度的关系:
在这里插入图片描述以上是在同一台机器上用相同的变量做的 wrk 压测,具体可以到 github 查看机器配置、参数及压测工具代码。当数据长度保持不变,QPS 随着并发度提高而增大,后趋于平稳。此过程中 workflow 一直有明显优势,高于 nginx 和 brpc。 特别是数据长度为64和512的两条曲线, 并发度足够的时候,可以保持50W的QPS。


给出GitHub项目原址:
https://link.juejin.cn/?target=https%3A%2F%2Fgithub.com%2Fsogou%2Fworkflow


**

高性能C++HTTP客户端原理与实现

**


一 什么是HTTP client
Http协议,是全互联网共同的语言,而Http Client,可以说是我们需要从互联网世界获取数据的最基本方法,它本质上是一个URL到一个网页的转换过程。而有了基本的Http客户端功能,再搭配上我们想要的规则和策略,上至内容检索下至数据分析都可以实现了。

继续引入一个高性能的HTTP客户端:

// [http_client.cc]
#include "stdio.h"
#include "workflow/HttpMessage.h"
#include "workflow/WFTaskFactory.h"

int main (int argc, char *argv[])
{
    const char *url = "https://github.com/sogou/workflow";
    WFHttpTask *task = WFTaskFactory::create_http_task (url, 2, 3,
            [](WFHttpTask * task) { 
                fprintf(stderr, "%s %s %s\r\n",
                        task->get_resp()->get_http_version(),
                        task->get_resp()->get_status_code(),
                        task->get_resp()->get_reason_phrase());
    });
    task->start();
    getchar(); // press "Enter" to end.
    return 0;
}
在这里插入代码片

只要安装好了Workflow,以上代码即可以通过以下命令编译出一个简单的http_client

g++ -o http_client http_client.cc --std=c++11 -lworkflow -lssl -lcrypto -lpthread
在这里插入代码片

根据Http协议,我们执行这个可执行程序 ./http_client,就会得到以下内容

HTTP/1.1 200 OK
在这里插入代码片

同理,我们还可以通过其他api来获得返回的其他Http header和Http body,一切内容都在这个 WFHttpTask 中。而因为Workflow是个异步调度框架,因此这个任务发出之后,不会阻塞当前线程,外加内部自带的连接复用,从根本上保证了我们的Http Client的高性能。

接下来给大家详细讲解一下原理~


二 请求过程

1 创建HTTP服务

上述demo可以看到,请求是通过发起一个Workflow的Http异步任务来实现的,创建任务的接口如下
WFHttpTask *create_http_task(const std::string& url, int redirect_max, int retry_max, http_callback_t callback); 在这里插入代码片
第一个参数就是我们要请求的URL。对应的,在一开始的示例中,我们的重定向次数redirect_max是2次,而重试次数retry_max是3次。第四个参数是一个回调函数,示例中我们用了一个lambda,由于Workflow的任务都是异步的,因此我们处理结果这件事情是被动通知我们的,结果回来就会调起这个回调函数,格式如下:

using http_callback_t = std::function<void (WFHttpTask *)>;
在这里插入代码片

2 填写header并发出

我们的网络交互无非是请求-回复,对应到Http Client上,在我们创建好了task之后,我们有一些时机是处理请求的,在Http协议里,就是在header里填好协议相关的事情,比如我们可以通过Connection来指定希望得到建立Http的长连接,以节省下次建立连接的耗时,那么我们可以把Connection设置为Keep-Alive。示例如下

protocol::HttpRequest *req = task->get_req();
req->add_header_pair("Connection", "Keep-Alive");
task->start();
在这里插入代码片

最后我们会把设置好请求的任务,通过 task->start(); 发出。最开始的 http_client.cc 示例中,有一个 getchar(); 语句,是因为我们的异步任务发出后是非阻塞的,当前线程不暂时停住就会退出,而我们希望等到回调函数回来,因此我们可以用多种暂停的方式。


3 处理返回结果

一个返回结果,根据Http协议,会包含三部分:消息行、消息头header、消息正文body。如果我们想要获取body,可以这样:

const void *body;
size_t body_len;
task->get_resp()->get_parsed_body(&body, &body_len); 
在这里插入代码片

三 高性能的基本保证

我们使用C++来写Http Client,最香的就是可以利用其高性能。Workflow对高并发是如何保证的呢?其实就两点:

纯异步;
连接复用;

前者是对线程资源的重复利用、后者是对连接资源的重复利用,这些框架层级都为用户管理好了,充分减少开发者的心智负担


1 异步调度模式
同步和异步的模式直接决定了我们的Http Client可以有多大的并发度。为什么呢?通过下图可以先看看同步框架发起三个Http任务,线程模型是怎样的:
在这里插入图片描述网络延迟往往非常大,如果我们在同步等待任务回来的话,线程就会一直被占用。这时候我们需要看看异步框架是如何实现的

在这里插入图片描述如图所示,只要任务发出之后,线程即可做其他事情,我们传入了一个回调函数做异步通知,因此等任务的网络回复收完之后,再让线程执行这个回调函数即可拿到Http请求的结果,期间多个任务并发出去的时候,线程是可以复用的,轻松达到几十万的QPS并发度。


2 连接复用
我们刚才有提到,只要我们建立了长连接,即可提高效率。为什么呢?因为框架对连接有复用。我们先来看看如果一个请求就建立一个连接,会是什么样的情况:
在这里插入图片描述很显然,占用大量的连接是对系统资源的浪费,而且每次都要做connect以及close是非常耗时的,除了TCP常见的握手以外,许多应用层协议建立连接的过程也会相对复杂。但使用Workflow就不会有这样的烦恼,Workflow会在任务发出的时候自动查找当前可以复用的连接,如果没有才会自动创建,完全不需要开发者关心连接如何复用的细节:
在这里插入图片描述


3 解锁其他功能

当然,除了以上的高性能以外,一个高性能的Http Client往往还有许多其他的需求,这里可以结合实际情况与大家分享:

结合workflow的串并联任务流,实现超大规模并行抓取;
按顺序或者按指定速度请求某个站点的内容,避免请求过猛被封禁;
Http Client遇到redirect可以自动帮我做跳转,一步到位请求到最终结果;
希望通过proxy代理访问HTTP与HTTPS资源;

以上这些需求,要求框架对于Http任务的编排有超高的灵活性,以及对实际需求(比如redirect、ssl代理等功能)有非常接地气的支持,这些Workflow都已经实现。


给出项目地址
https://link.juejin.cn/?target=https%3A%2F%2Fgithub.com%2Fsogou%2Fworkflow

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Mr.liang呀

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值