如何合并多个日志文件

最新推荐文章于 2021-04-29 08:34:30 发布

wenbc666

最新推荐文章于 2021-04-29 08:34:30 发布

阅读量5.4k

点赞数

文章标签： merge 优化负载均衡算法 apache

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wenbingcai/article/details/1829034

版权

如何合并多个日志文件？
下面以标准的clf格式日志（apache）为例：
apche的日志格式是这样的：
%h %l %u %t /"%r/" %>s %b
具体的例子：
111.222.111.222 - - [03/Apr/2002:10:30:17 +0800] "GET /index.html HTTP/1.1"

200 419

最简单的想法是将日志一一读出来，然后按日志中的时间字段排序
cat log1 log2 log3 |sort -k 4 -t " "
注释：
-t " ": 日志字段分割符号是空格
-k 4: 按第4个字段排序，也就是：[03/Apr/2002:10:30:17 +0800] 这个字段
-o log_all: 输出到log_all这个文件中

但这样的效率比较低，要知道。如果一个服务已经需要使用负载均衡，其服务的单机

日志条数往往都超过了千万级，大小在几百M，这样要同时对多个几百M的日志进行排

序，机器的负载可想而之……
其实有一个优化的途径，要知道：即使单个日志本身已经是一个“已经按照时间排好

序“的文件了，而sort对于这种文件的排序合并提供了一个优化合并算法：使用 -m

merge合并选项，
因此：合并这样格式的3个日志文件log1 log2 log3并输出到log_all中比较好方法是

：
sort -m -t " " -k 4 -o log_all log1 log2 log3
注释：
-m: 使用 merge优化算法

注意：合并后的日志输出最好压缩以后再发给webalizer处理
有的系统能处理2G的文件，有的不能。有的程序能处理大于2G的文件，有的不能。尽

量避免大于2G的文件，除非确认所有参与处理的程序和操作系统都能处理这样的文件

。所以输出后的文件如果大于2G，最好将日志gzip后再发给webalizer处理：大于2G的

文件分析过程中文件系统出错的可能性比较大，并且gzip后也能大大降低分析期间的

I/O操作。

日志的按时间排序合并就是这样实现的。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
如何合并多个日志文件

如何合并多个日志文件？下面以标准的clf格式日志（apache）为例：apche的日志格式是这样的：%h %l %u %t /"%r/" %>s %b具体的例子：111.222.111.222 - - [03/Apr/2002:10:30:17 +0800] "GET /index.html HTTP/1.1" 200 419最简单的想法是将日志一一读出来，然后按日志中的时间字段排序cat
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。