hadoop集群服务器软硬件规划

最新推荐文章于 2024-08-04 13:23:56 发布

李思苇

最新推荐文章于 2024-08-04 13:23:56 发布

阅读量7.3k

点赞数 2

分类专栏： hadoop 文章标签： hadoop集群 hadoop服务器 hadoop硬件规划

本文链接：https://blog.csdn.net/wenxindiaolong061/article/details/79880615

版权

hadoop 专栏收录该内容

6 篇文章 1 订阅

订阅专栏

一、硬件选型：

 1、服务器：太贵：大型机、小型机（400W左右），一般起步公司假设年收2000W，硬件成本占1/4不太现实
 2、PCServer：适合：最适合hadoop的支持廉价机器的，20-5W不等
 3、云服务：小公司适用，但是如果数据增长过快，可能很快就需要自行搭建硬件集群，进行数据迁移。以滴滴为例，目前全球日数据量是2000TB
 4、普通PC机器，稳定性差，可用于实验环境。

二、集群规模：

 1、核心因素：数据量；
      问题：        日数据量20G，需保存10年，需要多少台Server?
      总数据量：     20G*350*10=70000G=70T
      副本数量：     3
      一台机器：     4T
      性能考虑：     预留30%
      70*3/（1-30%）/4=80台

 2、性能需求：
      简单查询100G数据量时，耗时上限（5-10min？）
      复杂查询（join）时，耗时上限（30min？）
      历史数据导入时，耗时上限
      增量数据导入时，耗时上限

 3、可靠性需求：
      每月宕机次数（<1）
      每月宕机时间（<10min）

 4、可用性：
      每台机器每月的宕机时间（）

 5、容错性：
      机器故障，数据不丢失

四、软件选型：

 1、jdk :     1.7  1.8
 2、hadoop:     apache /cm+cdh/ambari+hdp
 3、OS:          centos(6 7)
 4、网络：千M或者 万 M

五、节点规划：

 1、软件安装目录
 2、数据存放目录
 3、临时存放目录
 4、pid目录
 5、用户目录
 6、其它目录

六、HA High Available

 1、故障转移

    zkfc(zkFailoverController)的两大组件实现namenode的故障转移：healthMoniter、activeStandbyElector

 2、共享存储
    QJM共享namenode edits 日志。 
    journalNode在共享存储的基础上进行namenode日志同步服务；