- 博客(4)
- 资源 (4)
- 收藏
- 关注
原创 【大数据】查找并优化参数设置不合理,导致产生大量小文件的Hive任务
背景 公司的数据开发平台上提交了数万个定时任务,有Mapreduce,也有Spark,mapreduce业务大多是基于Hive的定时任务。(我们公司没有用oozie,数据开发平台集成了oozie的任务流功能。)定时任务是由业务方自己提交,并且自己设置相关参数的。所有经常会出现参数设置不合理,导致map数和reduce数都非常大,过程中产生大量小文件,影响了HDFS的性能。所以前段时间安排了针...
2018-02-24 20:40:47 798
转载 使用dnsmasq快速搭建内网DNS
背景介绍公司有一批测试服务器,之间希望通过自定义的域名进行访问,这样比较方便,但每个人每台机器都维护一个hosts的话会非常麻烦,于是想搭建一个内部的DNS服务器,对自定义的域名进行解析,同时缓存公网的域名。首先,向导的DNS服务器肯定是bind9,但所谓杀鸡焉用牛刀,并且bind9的配置和后期维护都是比较麻烦的,而内网这种测试环境又经常需要更新配置。于是,我们采用了dnsmasq,它简直太简单了...
2018-02-24 20:12:58 6278
转载 hadoop2.0的datanode多目录数据副本存放策略
在hadoop2.0中,datanode数据副本存放磁盘选择策略有两种方式:第一种是沿用hadoop1.0的磁盘目录轮询方式,实现类:RoundRobinVolumeChoosingPolicy.java第二种是选择可用空间足够多的磁盘方式存储,实现类:AvailableSpaceVolumeChoosingPolicy.java选择策略对应的配置项是:[plain] view plain cop...
2018-02-24 08:56:56 595
原创 Hadoop 环境配置文件hadoop-env.sh 详解
有时间稍微看了一下JAVA虚拟机的相关知识,稍微整理了一下生产环境中的hadoop-env配置。不怎么专业,将就看一下吧。以后有时间再把JAVA虚拟机的知识整理一下。环境参数参数设置参数说明备注HADOOP_OPTS-Djava.net.preferIPv4Stack=true优先使用IPV4,禁用IPV6 HADOOP_NAMENODE_OPTSXms140G初始堆内存大小 Xmx140G最大...
2018-02-23 20:24:25 27288 3
FusionInsight华为大数据认证教材
2018-04-25
Openwhisk第一讲 微服务
2018-04-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人