自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 Iceberg +Flink+CDH+Trino+Hive

Iceberg +Flink+CDH+Trino+Hive

2021-11-23 15:35:58 6622 5

原创 CDH6.3.2升级impala3.2至impala3.4详细步骤

CDH6.3.2 impala3.2 升级至impala3.4编译全过程本地环境硬件要求CPU 必须至少支持 SSSE3最小内存:16GB (社区推荐64G)硬盘空间:120GB(用于测试数据)仅支持Linux的操作系统Ubuntu 14.04、16.04、18.04CentOS 7编译环境一套CDH6.3.2集群,部署在三台centos机器上一台同样环境的centos机器用来编译Apache Impala 3.4impala与其他组件版本支持

2021-11-23 10:14:34 2083

原创 CDH6.3.2离线部署

集群规模确定从数据量、计算性能要求、可靠稳定性、容错性等方面考虑。数据量现有数据量(如现有历史数据)和增量数据(日增、月增数据,一般需要考虑满足1-2年的容量,后续再扩容)数据的副本数(Hadoop默认3副本,乘3倍);数据清洗、融合加工处理、共享等过程产生的,中间表、指标表、主题/专题库等表(乘3-5倍)。注意:HDFS上不同格式的表压缩比也不一样,如文本txt表不压缩,orc有一定的压缩比(1:3),HBase(看是否采用压缩),ES看索引是否有膨胀;储存的冗余量 + 20-30%;如:现

2021-11-17 10:56:23 2226

原创 数据湖技术Iceberg0.12预研文档

Iceberg0.12预研本次预研场景主要为kafka=>flink sql=>iceberg=>hive=>hdfs=>trino(presto)本次预研使用组件如下:名称版本描述flink1.12.1通过parcel包部署于cdh6.3.2中cdh6.3.2开源版本hive2.3.7包含cdh中(更换jar升级替换)hadoop3.0.0cdh原生版本presto2.591开源版本trino36

2021-10-28 10:49:49 785 2

原创 数据湖技术Hudi0.10master测试流程

Hudi0.10master测试流程本地环境名称版本描述flink(pre-job)1.3.2通过parcel包部署于cdh6.3.2中cdh6.3.2开源版本hive2.1.1-cdh6.3.2包含cdh中(更换jar升级替换)hadoop3.0.0-cdh6.3.2cdh原生版本presto2.591开源版本trino360开源版本hudi0.10master分支编译准备hudi包github

2021-10-27 09:26:16 1328

原创 什么是数据湖,数据湖和数据仓库的区别在哪

数据仓库是什么数据仓库数据湖数据来自事务系统、运营数据库和业务线应用程序的清洗过结构化数据来自 IoT 设备、网站、移动应用程序、社交媒体和企业应用程序的原始数据架构设计在数据仓库实施之前(写入型 Schema)。在存储数据之前定义架构。这需要您清理和规范化数据,这意味着架构的灵活性要低得多。准备使用数据时,就给它一个定义(读取型 Schema)。在存储数据后定义架构。这需要较少的初始工作并提供更大的灵活性性价比更快查询结果会带来较高存储成本更快查询结果只需较

2021-10-22 10:56:27 947

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除