大数据中的调优
道法—自然
不积跬步,无以至千里;不积小流,无以成江海。——荀子
展开
-
hive的优化、调优
总之:1、使用本地模式(设置为local模式)2、提高并行度(SQL语句)3、查询的时候,用where+分区(加上分区限制)4、排序的时候,使用sort+limit限制输出5、避免使用笛卡尔积,用join on(在where中加有效的链接条件)6、大表小表联合的时候,将小表写在前7、尽量在map端做预聚合8、设置限...原创 2018-09-09 00:05:48 · 226 阅读 · 0 评论 -
hdfs中参数的配置
数据块的副本数 dfs.replication 3 2 页面修改 减少副本块可以节约存储空间 SequenceFile I/O 缓存区大小 io.file.buffer.size 131072(可以更大) core-site.xml 的群集范围高级配置代码段(安全阀) hadoop访问文件的IO操作都需要通过代码库,在...原创 2018-09-11 23:54:16 · 2618 阅读 · 0 评论 -
hadoop 配置项的调优
hadoop 配置项的调优dfs.block.size 决定HDFS文件block数量的多少(文件个数),它会间接的影响Job Tracker的调度和内存的占用(更影响内存的使用),mapred.map.tasks.speculative.execution=true mapred.reduce.tasks.speculative.execution=true这是两个推测式执...原创 2018-09-11 23:57:03 · 277 阅读 · 0 评论 -
MapReduce:Job性能调优总结
MapReduce:Job性能调优总结硬件级别 提高磁盘IO的性能 noatime 我为两台slaves server设置了noatime. vi /etc/fstab.map task的平均执行时间减少两秒,这影响硬盘IO的性能,shuffle的时间也相应地减少了1分钟,不影响reduce的执行时间 client端设置 map与reduce task数量 map task的数量由s...原创 2018-09-12 20:53:05 · 287 阅读 · 0 评论