1.libhtp库
- 提供http的解析:支持主流的http各版本,1.0/2.0等
- 官网-国内访问非常不稳定
- 官网没有提供太多的api说明与使用示例
- 官网推荐琢磨源码获得libhtp的细节理解
- 稳定版本0.5.x
- 开发版本0.6.x
- 可以参考suricata对libhtp的使用
2.suricata
- 官网
- 选择稳定版5.0.10
- suricata在应用识别方面,使用广泛,属于世界级的软件
3.参考资料
- 介绍一款HTTP流量解析器-LibHTP
- 简要说明libhtp的使用流程,配合libhtp/suricata学习会更好
- 提到suricata集成libhtp,是学习libhtp的好例子
4.函数说明
4.1 htp_table_t 相关
- htp_table_t 就是简单的链表,用于存储解析后的请求头、请求行的参数等
- 2个一组,一组一组的存入链表
- 组内首个为bstr *,请求头的名称或请求行参数名,便于查询比较
- 组内第二个为void *,存储请求头的值或请求行参数值
- 提取时,采用变量方式提取:i+=2;i为组内首个元素,i+1为组内第二个元素
#提取uri参数参考
for (size_t i = 0, n = htp_table_size(tx->request_params); i < n; i++) {
param = htp_table_get_index(tx->request_params, i, NULL);
if ( 0 != bstr_cmp_mem_nocase(param->name, key, klen) ) {
/* 不匹配key则跳过 */
continue;
}
/* 匹配则拷贝其值 */
*out_str = bstr_util_strdup_to_c(param->value);
return 0;
}
#提取http头参数
//利用 htp_table_get_c 从已经解析好的请求-响应头部信息里,查找特定的头部:按头部的名查找,大小写不明感
//返回解析好的指定头部信息
htp_header_t *cookie = htp_table_get_c(tx->request_headers, "cookie")
cookie->name = ...
cookie->value = ...
cookie->flag = ...
htp_header_t *location = htp_table_get_c(tx->response_headers, "location")
4.1 request_line相关
- tx交易下
- 会存储request_line即请求行,剥离请求方法,含HTTP/1.1这部分
- 存储request_uri即请求行里剥离请求方法后剩下的部分,不含HTTP/1.1这部分
- 存储parse_uri_raw即请求行里,解析的各部分,如path、query、fragment等
- 存储parse_uri相当于对parse_uri_raw进行解码规范操作
4.2 bstr_t相关
- bstr_t 存储libhtp解析的数据
- len:数据长度;从ptr开始,len长均为解析的数据
- ptr:数据指针;非0,则指向数据存储地址;0,则在bstr_t后紧接着数据
- 这些数据,不是简单字符串
- 想把bstr_t数据变为字符串,使用
bstr_util_strdup_to_c
接口- 针对数据里的0,接口会转化为’\‘与’\0’
直接将bstr_t数据当为字符串使用,可能会在len后多出一些随机字符
- 想比较bstr_t数据,使用bstr_cmp_mem_nocase/bstr_cmp_mem接口
- 2个接口,均为全匹配,数据1与数据2完全匹配,返回0;否则,返回非0
- 数据1为bstr_t,数据2为字符串或ptr@len数据
bstr_cmp_mem_nocase
接口,忽略大小写bstr_cmp_mem
接口,区分大小写
4.3 http_body数据
- 按顺序,分块存储在HtpBody
- 通过配置HtpBodyAppendChunk函数完成
- 需要明确的是,HtpBodyAppendChunk函数得到的data
已完成gzip解压缩
- 可以直接进行相关的数据检查工作
4.4 uri的query参数 url解码
www-form格式
- 配置htp_config_register_urlencoded_parser函数,将能设置提取uri的query参数
- 这种提取的效果,默认完成url解码
url解码
解码%xxx为空格、中文等
- 提取的数据,存储在tx->request_params里:按{name-params} 2元存储
- 这个接口,也同时完成www-form格式的body表单里参数的解析:默认完成url解码
- 这种提取的效果,默认完成url解码
- 也可以参考curl进行url解码
4.4.1 curl的url解码示例
C语言中没有内置的URL解码库函数,但可以使用第三方库来实现URL解码功能。
- 一个常用的库是libcurl,它是一个功能强大的开源网络传输库,支持多种协议,包括HTTP和HTTPS。
- libcurl提供了一个函数
curl_easy_unescape()
来进行URL解码。
使用libcurl进行URL解码的步骤如下:
- 首先,需要安装libcurl库并包含相应的头文件。
- 创建一个
CURL
句柄,并使用curl_easy_init()
函数进行初始化。 - 设置解码后的数据存储位置和大小。
- 调用
curl_easy_unescape()
函数进行URL解码。 - 最后,记得释放资源,使用
curl_easy_cleanup()
函数释放CURL句柄。 - 注意,使用libcurl需要在编译时链接相应的库文件。具体的编译命令可以根据操作系统和编译环境进行调整。
下面是一个简单的示例代码:
#include <stdio.h>
#include <curl/curl.h>
int main() {
CURL *curl = curl_easy_init();
if (curl) {
char *url = "https%3A%2F%2Fwww.example.com%2Fpage%3Fid%3D123";
int outlen;
char *decoded_url = curl_easy_unescape(curl, url, 0, &outlen);
if (decoded_url) {
printf("Decoded URL: %s\n", decoded_url);
curl_free(decoded_url);
}
curl_easy_cleanup(curl);
}
return 0;
}
4.5 multipart的支持
- 需要调用
htp_config_register_multipart_parser
接口,支持multpart的解析 - 针对form格式的post,提取form的参数,需要从tx->request_params提取
- source为body
- 利用name匹配参数名
- value若来自url.query、body.www-form则默认完成url解码;若来自multipart,仅原始提取,因为这里非url编码