hadoop优化
笔尖的痕
spark、hadoop,数据仓库,实时计算
展开
-
腾讯大规模Hadoop集群实践 [转程序员杂志]
TDW(Tencent distributed Data Warehouse,腾讯分布式数据仓库)基于开源软件Hadoop和Hive进行构建,打破了传统数据仓库不能线性扩展、可控性差的局限,并且根据腾讯数据量大、计算复杂等特定情况进行了大量优化和改造。TDW服务覆盖了腾讯绝大部分业务产品,单集群规模达到4400台,CPU总核数达到10万左右,存储容量达到100PB;每日作业数100多万,每转载 2015-03-19 02:53:01 · 720 阅读 · 0 评论 -
Hadoop平台优化综述
1. 概述随着企业要处理的数据量越来越大,MapReduce思想越来越受到重视。Hadoop是MapReduce的一个开源实现,由于其良好的扩展性和容错性,已得到越来越广泛的应用。Hadoop作为一个基础数据处理平台,虽然其应用价值已得到大家认可,但仍存在很多问题,以下是主要几个:(1) Namenode/jobtracker单点故障。 Hadoop采用的是转载 2015-03-19 02:29:52 · 832 阅读 · 0 评论 -
hadoop JOB的性能优化实践
使用了几个月的hadoopMR,对遇到过的性能问题做点笔记,这里只涉及job的性能优化,没有接触到hadoop集群,操作系统,任务调度策略这些方面的问题。hadoop MR在做大数据量分析时候有限的计算资源情况下只能不断的优化程序。优化可以从两个方面进行:1.hadoop配置2.程序代码程序代码包括的方面很多:job设计,算法,数据结构,代码编写。转载 2015-03-19 02:21:59 · 1204 阅读 · 0 评论 -
hadoop分布式平台优化
Hadoop性能调优不仅是自身的调优,还应包括底层硬件、操作系统等。下面逐一介绍:1、底层硬件Hadoop采用的是master/slave的架构,master(resourcemanager或namenode)要维护元数据信息、调度等,任务量及重要性远大于slave,因此尽量将master高配置。2、操作系统1)增大最大文件描述符的数量和网络连接上限(作用明显)转载 2015-03-19 02:33:24 · 802 阅读 · 0 评论 -
Yarn的JVM重用功能——uber
首先,简单回顾一下Hadoop 1.x中的JVM重用功能:用户可以通过更改配置,来指定TaskTracker在同一个JVM里面最多可以累积执行的Task的数量(默认是1)。这样的好处是减少JVM启动、退出的次数,从而达到提高任务执行效率的目的。 配置的方法也很简单:通过设置mapred-site.xml里面参数mapred.job.reuse.jvm.num.tasks的值。该值默认是1,意味转载 2015-03-20 01:03:40 · 2414 阅读 · 0 评论 -
MapReduce参数调优
1.设置合理solt数mapred.tasktracker.map.tasks.maximum 每个tasktracker可同时运行的最大map task数,默认值2。mapred.tasktracker.reduce.tasks.maximum每个tasktracker可同时运行的最大reduce task数,默认值1。2.配置磁盘转载 2015-03-21 18:00:21 · 1348 阅读 · 0 评论 -
HBase性能优化方法总结
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,这里涉及的不多,这部分可以参考Hbase性能调优1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大转载 2015-04-29 22:22:27 · 1787 阅读 · 0 评论