在logstash中,配置完输入数据流后,接下来就是对数据进行解析,最简单的方法莫过于使用过滤器(filter)与grok的组合。
在grok中,支持以正则表达式的方式提取所需要的信息,其中,正则表达式又分两种,一种是内置的正则表达式(可以满足我们大部分的要求),一种是自定义的正则表达式,形式分别如下:
# 内置的正则表达式方式,下面的写法表示从输入的消息中提取IP字段,并命名为sip
%{
IP:sip}
# 自定义的正则表达式,开始与终止符分别为(?与?),下面的写法表示获取除,以外的字符,并命名为log_type
(?<log_type>[^,]+?)
以一个具体的例子来说明grok用法,假定需要解析的消息内容样本如下:
日志类型:僵尸网络日志, 源IP:192.168.101.251, 源端口:63726, 目的IP:124.127.48.41, 目的端口:1390, 攻击类型