大数据平台
大数据平台相关,基础架构,环境搭建
Lan-Forever
这个作者很懒,什么都没留下…
展开
-
离线大数据平台存储资源评估
思路1.计算每天的数据量和副本个数2.需要存储多久3.各种数据处理之后,数据膨胀倍数4.数据增长速度5.数据压缩存储比例6.机器硬盘大小、个数原创 2021-09-30 15:41:15 · 471 阅读 · 0 评论 -
大数据实时存储资源评估方法
评估思路1.数据高峰期QPS计算,数据量/高峰期时长,根据二八法则2.存储计算,考虑每天的数据总量包括原始数据量以及副本数据量,考虑数据保存时长以及高峰期QPS占集群总承载能力的百分比3.磁盘数量计算,根据第二步计算物理机数量以及磁盘数量4.磁盘类型选择,SSD or SAS,有钱直接SSD就行了5.内存估算,资金充足时越大越好,kafka topic partition占用总内存除以物理机数量等于单台物理机需要的内存,考虑partition数据不需要完全放在内存中,20%就行了6.原创 2021-09-30 15:37:43 · 1075 阅读 · 0 评论 -
CDH大数据平台搭建
一、准备4台虚拟机 ip 机器名 角色 192.168.160.128 host01 CM管理组件 192.168.160.130 host02 namenode/resource manager/hbase master/impala statestore/impala catalog server/hiveserver2/hive原创 2021-03-31 11:22:07 · 414 阅读 · 0 评论 -
基于Ambari搭建大数据平台
一、准备工作以Apache 的 Ambari 2.0.1 为例1.SSH 的无密码登录Ambari 的 Server 会 SSH 到 Agent 的机器,拷贝并执行一些命令。因此我们需要配置 Ambari Server 到 Agent 的 SSH 无密码登录。在这个例子里,zwshen37 可以 SSH 无密码登录 zwshen38 和 zwshen39。2.确保 Yum 可以正常工作通过公共库(public repository),安装 Hadoop 这些软件,背后其实就是应用.翻译 2021-03-31 11:12:25 · 9096 阅读 · 0 评论