- 博客(6)
- 收藏
- 关注
原创 CDH6.3.2升级impala3.2至impala3.4详细步骤
CDH6.3.2 impala3.2 升级至impala3.4编译全过程本地环境硬件要求CPU 必须至少支持 SSSE3最小内存:16GB (社区推荐64G)硬盘空间:120GB(用于测试数据)仅支持Linux的操作系统Ubuntu 14.04、16.04、18.04CentOS 7编译环境一套CDH6.3.2集群,部署在三台centos机器上一台同样环境的centos机器用来编译Apache Impala 3.4impala与其他组件版本支持
2021-11-23 10:14:34 2112
原创 CDH6.3.2离线部署
集群规模确定从数据量、计算性能要求、可靠稳定性、容错性等方面考虑。数据量现有数据量(如现有历史数据)和增量数据(日增、月增数据,一般需要考虑满足1-2年的容量,后续再扩容)数据的副本数(Hadoop默认3副本,乘3倍);数据清洗、融合加工处理、共享等过程产生的,中间表、指标表、主题/专题库等表(乘3-5倍)。注意:HDFS上不同格式的表压缩比也不一样,如文本txt表不压缩,orc有一定的压缩比(1:3),HBase(看是否采用压缩),ES看索引是否有膨胀;储存的冗余量 + 20-30%;如:现
2021-11-17 10:56:23 2236
原创 数据湖技术Iceberg0.12预研文档
Iceberg0.12预研本次预研场景主要为kafka=>flink sql=>iceberg=>hive=>hdfs=>trino(presto)本次预研使用组件如下:名称版本描述flink1.12.1通过parcel包部署于cdh6.3.2中cdh6.3.2开源版本hive2.3.7包含cdh中(更换jar升级替换)hadoop3.0.0cdh原生版本presto2.591开源版本trino36
2021-10-28 10:49:49 794 2
原创 数据湖技术Hudi0.10master测试流程
Hudi0.10master测试流程本地环境名称版本描述flink(pre-job)1.3.2通过parcel包部署于cdh6.3.2中cdh6.3.2开源版本hive2.1.1-cdh6.3.2包含cdh中(更换jar升级替换)hadoop3.0.0-cdh6.3.2cdh原生版本presto2.591开源版本trino360开源版本hudi0.10master分支编译准备hudi包github
2021-10-27 09:26:16 1342
原创 什么是数据湖,数据湖和数据仓库的区别在哪
数据仓库是什么数据仓库数据湖数据来自事务系统、运营数据库和业务线应用程序的清洗过结构化数据来自 IoT 设备、网站、移动应用程序、社交媒体和企业应用程序的原始数据架构设计在数据仓库实施之前(写入型 Schema)。在存储数据之前定义架构。这需要您清理和规范化数据,这意味着架构的灵活性要低得多。准备使用数据时,就给它一个定义(读取型 Schema)。在存储数据后定义架构。这需要较少的初始工作并提供更大的灵活性性价比更快查询结果会带来较高存储成本更快查询结果只需较
2021-10-22 10:56:27 956
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人