网站日志分析项目的总结以及性能优化

本文总结了一个网站日志分析项目的实施过程,探讨了如何通过大数据技术进行高效的数据处理和分析。同时,重点介绍了在项目中实施的性能优化策略,包括数据清洗、存储优化、查询效率提升等方面,旨在提供一种提升日志分析效率的方法。
摘要由CSDN通过智能技术生成

项目总结及性能优化

1.HDFS:
	(1)DataNode存储模式:
		系统分区:  1-2T 不做raid
		NAMENODE:   1-2T 做raid
		DataNode:   大部分的存储   不做raid
		
	(2)定期清理hdfs的tmp目录
	
	(3)做hdfs的负载均衡
			sbin/start-balancer.sh
			sbin/stop-balancer.sh
		
	(4)设置文件读写缓存
	     dfs.stream-buffer-size
		 默认4k,值一般可以调到128KB即可。
		 
	(5)清理回收站
	
2.MapReduce

	(1)提高合并文件时文件流的个数
		MapReduce.task.io.sort.factor
		默认值是10,调大可以调高并行度,加快处理
		
	(2)提高环形缓冲区的大小
		MapReduce.task.io.sort.mb
		默认是100m,增加值减少磁盘的溢写次数
		
	(3)提高reduce复制map端输出的线程数
		MapReduce.reduce.shuffle.parallelcopies
		默认值是5,可以调到20-50之间,增加去数据时的并行数,提高性能
		
	(4)增大内存
		mapred.child.java.opts
		默认是200M
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值