libhtp库的学习

weixin_45081353

已于 2024-02-08 10:05:02 修改

阅读量561

点赞数 7

文章标签：学习

于 2024-01-18 10:00:00 首次发布

本文链接：https://blog.csdn.net/weixin_45081353/article/details/134165652

版权

本文介绍了LibHTP库，一个支持HTTP各版本解析的工具，尤其关注其与Suricata的集成。重点讲解了htp_table_t数据结构、请求头和uri参数提取、以及与multipart和url解码相关的功能。同时提到了libcurl的URL解码示例。

摘要由CSDN通过智能技术生成

1.libhtp库

提供http的解析：支持主流的http各版本，1.0/2.0等
官网-国内访问非常不稳定
- 官网没有提供太多的api说明与使用示例
  - quickstart 提供基本的使用说明
- 官网推荐琢磨源码获得libhtp的细节理解
  - 稳定版本0.5.x
  - 开发版本0.6.x
- 可以参考suricata对libhtp的使用

2.suricata

官网
- 选择稳定版5.0.10
- suricata在应用识别方面，使用广泛，属于世界级的软件

3.参考资料

介绍一款HTTP流量解析器-LibHTP
- 简要说明libhtp的使用流程，配合libhtp/suricata学习会更好
- 提到suricata集成libhtp，是学习libhtp的好例子

4.函数说明

4.1 htp_table_t 相关

htp_table_t 就是简单的链表，用于存储解析后的请求头、请求行的参数等
2个一组，一组一组的存入链表
- 组内首个为bstr *，请求头的名称或请求行参数名，便于查询比较
- 组内第二个为void *，存储请求头的值或请求行参数值
提取时，采用变量方式提取：i+=2；i为组内首个元素，i+1为组内第二个元素

#提取uri参数参考
for (size_t i = 0, n = htp_table_size(tx->request_params); i < n; i++) {
	param = htp_table_get_index(tx->request_params, i, NULL);
    if ( 0 != bstr_cmp_mem_nocase(param->name, key, klen) ) {
        /* 不匹配key则跳过 */
        continue;
    }

    /* 匹配则拷贝其值 */
    *out_str = bstr_util_strdup_to_c(param->value);
    return 0;
}

#提取http头参数
//利用 htp_table_get_c 从已经解析好的请求-响应头部信息里，查找特定的头部：按头部的名查找，大小写不明感
//返回解析好的指定头部信息
htp_header_t *cookie = htp_table_get_c(tx->request_headers, "cookie")
cookie->name = ...
cookie->value = ...
cookie->flag = ...

htp_header_t *location =  htp_table_get_c(tx->response_headers, "location")

4.1 request_line相关

tx交易下
- 会存储request_line即请求行，剥离请求方法，含HTTP/1.1这部分
- 存储request_uri即请求行里剥离请求方法后剩下的部分，不含HTTP/1.1这部分
- 存储parse_uri_raw即请求行里，解析的各部分，如path、query、fragment等
- 存储parse_uri相当于对parse_uri_raw进行解码规范操作

4.2 bstr_t相关

bstr_t 存储libhtp解析的数据
- len:数据长度；从ptr开始，len长均为解析的数据
- ptr:数据指针；非0，则指向数据存储地址；0，则在bstr_t后紧接着数据
- 这些数据，不是简单字符串
想把bstr_t数据变为字符串，使用bstr_util_strdup_to_c接口
- 针对数据里的0，接口会转化为’\‘与’\0’
- 直接将bstr_t数据当为字符串使用，可能会在len后多出一些随机字符
想比较bstr_t数据，使用bstr_cmp_mem_nocase/bstr_cmp_mem接口
- 2个接口，均为全匹配，数据1与数据2完全匹配，返回0；否则，返回非0
- 数据1为bstr_t，数据2为字符串或ptr@len数据
- bstr_cmp_mem_nocase接口，忽略大小写
- bstr_cmp_mem接口，区分大小写

4.3 http_body数据

按顺序，分块存储在HtpBody
通过配置HtpBodyAppendChunk函数完成
需要明确的是，HtpBodyAppendChunk函数得到的data
- 已完成gzip解压缩
- 可以直接进行相关的数据检查工作

4.4 uri的query参数 `url解码` `www-form格式`

配置htp_config_register_urlencoded_parser函数，将能设置提取uri的query参数
- 这种提取的效果，默认完成url解码 url解码 解码%xxx为空格、中文等
- 提取的数据，存储在tx->request_params里：按{name-params} 2元存储
- 这个接口，也同时完成www-form格式的body表单里参数的解析：默认完成url解码
也可以参考curl进行url解码
- curl-unescape api

4.4.1 curl的url解码示例

C语言中没有内置的URL解码库函数，但可以使用第三方库来实现URL解码功能。

一个常用的库是libcurl，它是一个功能强大的开源网络传输库，支持多种协议，包括HTTP和HTTPS。
libcurl提供了一个函数curl_easy_unescape()来进行URL解码。

使用libcurl进行URL解码的步骤如下：

首先，需要安装libcurl库并包含相应的头文件。
创建一个CURL句柄，并使用curl_easy_init()函数进行初始化。
设置解码后的数据存储位置和大小。
调用curl_easy_unescape()函数进行URL解码。
最后，记得释放资源，使用curl_easy_cleanup()函数释放CURL句柄。
注意，使用libcurl需要在编译时链接相应的库文件。具体的编译命令可以根据操作系统和编译环境进行调整。

下面是一个简单的示例代码：

#include <stdio.h>
#include <curl/curl.h>

int main() {
    CURL *curl = curl_easy_init();
    if (curl) {
        char *url = "https%3A%2F%2Fwww.example.com%2Fpage%3Fid%3D123";
        int outlen;
        char *decoded_url = curl_easy_unescape(curl, url, 0, &outlen);
        if (decoded_url) {
            printf("Decoded URL: %s\n", decoded_url);
            curl_free(decoded_url);
        }
        curl_easy_cleanup(curl);
    }
    return 0;
}

4.5 multipart的支持

需要调用htp_config_register_multipart_parser接口，支持multpart的解析
针对form格式的post，提取form的参数，需要从tx->request_params提取
- source为body
- 利用name匹配参数名
- value若来自url.query、body.www-form则默认完成url解码；若来自multipart，仅原始提取，因为这里非url编码

weixin_45081353

关注

7
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
libhtp库的学习

1.libhtp库提供http的解析：支持主流的http各版本，1.0/2.0等官网-国内访问非常不稳定官网没有提供太多的api说明与使用示例quickstart 提供基本的使用说明官网推荐琢磨源码获得libhtp的细节理解稳定版本0.5.x开发版本0.6.x可以参考suricata对libhtp的使用2.suricata官网选择稳定版5.0.10suricata在应用识别方面，使用广泛，属于世界级的软件3.参考资料介绍一款HTTP流量解析器-L
复制链接

扫一扫