自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 资源 (4)
  • 收藏
  • 关注

原创 【大数据】查找并优化参数设置不合理,导致产生大量小文件的Hive任务

背景 公司的数据开发平台上提交了数万个定时任务,有Mapreduce,也有Spark,mapreduce业务大多是基于Hive的定时任务。(我们公司没有用oozie,数据开发平台集成了oozie的任务流功能。)定时任务是由业务方自己提交,并且自己设置相关参数的。所有经常会出现参数设置不合理,导致map数和reduce数都非常大,过程中产生大量小文件,影响了HDFS的性能。所以前段时间安排了针...

2018-02-24 20:40:47 798

转载 使用dnsmasq快速搭建内网DNS

背景介绍公司有一批测试服务器,之间希望通过自定义的域名进行访问,这样比较方便,但每个人每台机器都维护一个hosts的话会非常麻烦,于是想搭建一个内部的DNS服务器,对自定义的域名进行解析,同时缓存公网的域名。首先,向导的DNS服务器肯定是bind9,但所谓杀鸡焉用牛刀,并且bind9的配置和后期维护都是比较麻烦的,而内网这种测试环境又经常需要更新配置。于是,我们采用了dnsmasq,它简直太简单了...

2018-02-24 20:12:58 6278

转载 hadoop2.0的datanode多目录数据副本存放策略

在hadoop2.0中,datanode数据副本存放磁盘选择策略有两种方式:第一种是沿用hadoop1.0的磁盘目录轮询方式,实现类:RoundRobinVolumeChoosingPolicy.java第二种是选择可用空间足够多的磁盘方式存储,实现类:AvailableSpaceVolumeChoosingPolicy.java选择策略对应的配置项是:[plain] view plain cop...

2018-02-24 08:56:56 595

原创 Hadoop 环境配置文件hadoop-env.sh 详解

有时间稍微看了一下JAVA虚拟机的相关知识,稍微整理了一下生产环境中的hadoop-env配置。不怎么专业,将就看一下吧。以后有时间再把JAVA虚拟机的知识整理一下。环境参数参数设置参数说明备注HADOOP_OPTS-Djava.net.preferIPv4Stack=true优先使用IPV4,禁用IPV6 HADOOP_NAMENODE_OPTSXms140G初始堆内存大小  Xmx140G最大...

2018-02-23 20:24:25 27288 3

蚂蚁金服大数据分析产品的架构演进

蚂蚁金服大数据分析产品的架构演进 大数据技术架构分享 DeepInsight

2018-04-30

FusionInsight华为大数据认证教材

华为的认证教材!!!华为FusionInsight大数据平台,能够帮助企业快速构建海量数据信息处理系统,通过对企业内部和外部的巨量信息数据实时与非实时的分析挖掘,发现全新价值点和企业商机。FusionInsight是完全开放的大数据平台,可运行在开放的x86架构服务器上,它以海量数据处理引擎和实时数据处理引擎为核心,并针对金融、运营商等数据密集型行业的运行维护、应用开发等需求,打造了敏捷、智慧、可信的平台软件、建模中间件及OM系统,让企业可以更快、更准、更稳地从各类繁杂无序的海量数据中发现价值。

2018-04-25

Openwhisk第一讲 微服务

IBM的微服务课程第一讲:Apache OpenWhisk是一个开源FaaS平台。现在,AWS Lambda是FaaS最流行的实现。 在开源组件的选择中,OpenWhisk是最好的选择。OpenWhisk是一个健壮的、可扩展的平台,支持数千并发触发器和调用。这篇文章将探索OpenWhisk设计和架构,识别各种组件及其作用,可以帮助我们更好的了解分布式系统和serverless平台。

2018-04-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除