libhtp库的学习

本文介绍了LibHTP库,一个支持HTTP各版本解析的工具,尤其关注其与Suricata的集成。重点讲解了htp_table_t数据结构、请求头和uri参数提取、以及与multipart和url解码相关的功能。同时提到了libcurl的URL解码示例。
摘要由CSDN通过智能技术生成

1.libhtp库

2.suricata

  • 官网
    • 选择稳定版5.0.10
    • suricata在应用识别方面,使用广泛,属于世界级的软件

3.参考资料

4.函数说明

4.1 htp_table_t 相关
  • htp_table_t 就是简单的链表,用于存储解析后的请求头、请求行的参数等
  • 2个一组,一组一组的存入链表
    • 组内首个为bstr *,请求头的名称或请求行参数名,便于查询比较
    • 组内第二个为void *,存储请求头的值或请求行参数值
  • 提取时,采用变量方式提取:i+=2;i为组内首个元素,i+1为组内第二个元素
#提取uri参数参考
for (size_t i = 0, n = htp_table_size(tx->request_params); i < n; i++) {
	param = htp_table_get_index(tx->request_params, i, NULL);
    if ( 0 != bstr_cmp_mem_nocase(param->name, key, klen) ) {
        /* 不匹配key则跳过 */
        continue;
    }

    /* 匹配则拷贝其值 */
    *out_str = bstr_util_strdup_to_c(param->value);
    return 0;
}
#提取http头参数
//利用 htp_table_get_c 从已经解析好的请求-响应头部信息里,查找特定的头部:按头部的名查找,大小写不明感
//返回解析好的指定头部信息
htp_header_t *cookie = htp_table_get_c(tx->request_headers, "cookie")
cookie->name = ...
cookie->value = ...
cookie->flag = ...

htp_header_t *location =  htp_table_get_c(tx->response_headers, "location")
4.1 request_line相关
  • tx交易下
    • 会存储request_line即请求行,剥离请求方法,含HTTP/1.1这部分
    • 存储request_uri即请求行里剥离请求方法后剩下的部分,不含HTTP/1.1这部分
    • 存储parse_uri_raw即请求行里,解析的各部分,如path、query、fragment等
    • 存储parse_uri相当于对parse_uri_raw进行解码规范操作
4.2 bstr_t相关
  • bstr_t 存储libhtp解析的数据
    • len:数据长度;从ptr开始,len长均为解析的数据
    • ptr:数据指针;非0,则指向数据存储地址;0,则在bstr_t后紧接着数据
    • 这些数据,不是简单字符串
  • 想把bstr_t数据变为字符串,使用bstr_util_strdup_to_c接口
    • 针对数据里的0,接口会转化为’\‘与’\0’
    • 直接将bstr_t数据当为字符串使用,可能会在len后多出一些随机字符
  • 想比较bstr_t数据,使用bstr_cmp_mem_nocase/bstr_cmp_mem接口
    • 2个接口,均为全匹配,数据1与数据2完全匹配,返回0;否则,返回非0
    • 数据1为bstr_t,数据2为字符串或ptr@len数据
    • bstr_cmp_mem_nocase接口,忽略大小写
    • bstr_cmp_mem接口,区分大小写
4.3 http_body数据
  • 按顺序,分块存储在HtpBody
  • 通过配置HtpBodyAppendChunk函数完成
  • 需要明确的是,HtpBodyAppendChunk函数得到的data
    • 已完成gzip解压缩
    • 可以直接进行相关的数据检查工作
4.4 uri的query参数 url解码 www-form格式
  • 配置htp_config_register_urlencoded_parser函数,将能设置提取uri的query参数
    • 这种提取的效果,默认完成url解码 url解码 解码%xxx为空格、中文等
    • 提取的数据,存储在tx->request_params里:按{name-params} 2元存储
    • 这个接口,也同时完成www-form格式的body表单里参数的解析:默认完成url解码
  • 也可以参考curl进行url解码
4.4.1 curl的url解码示例

C语言中没有内置的URL解码库函数,但可以使用第三方库来实现URL解码功能。

  • 一个常用的库是libcurl,它是一个功能强大的开源网络传输库,支持多种协议,包括HTTP和HTTPS。
  • libcurl提供了一个函数curl_easy_unescape()来进行URL解码。

使用libcurl进行URL解码的步骤如下:

  1. 首先,需要安装libcurl库并包含相应的头文件。
  2. 创建一个CURL句柄,并使用curl_easy_init()函数进行初始化。
  3. 设置解码后的数据存储位置和大小。
  4. 调用curl_easy_unescape()函数进行URL解码。
  5. 最后,记得释放资源,使用curl_easy_cleanup()函数释放CURL句柄。
  6. 注意,使用libcurl需要在编译时链接相应的库文件。具体的编译命令可以根据操作系统和编译环境进行调整。

下面是一个简单的示例代码:

#include <stdio.h>
#include <curl/curl.h>

int main() {
    CURL *curl = curl_easy_init();
    if (curl) {
        char *url = "https%3A%2F%2Fwww.example.com%2Fpage%3Fid%3D123";
        int outlen;
        char *decoded_url = curl_easy_unescape(curl, url, 0, &outlen);
        if (decoded_url) {
            printf("Decoded URL: %s\n", decoded_url);
            curl_free(decoded_url);
        }
        curl_easy_cleanup(curl);
    }
    return 0;
}
4.5 multipart的支持
  • 需要调用htp_config_register_multipart_parser接口,支持multpart的解析
  • 针对form格式的post,提取form的参数,需要从tx->request_params提取
    • source为body
    • 利用name匹配参数名
    • value若来自url.query、body.www-form则默认完成url解码;若来自multipart,仅原始提取,因为这里非url编码
  • 7
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值