- 博客(4)
- 资源 (4)
- 收藏
- 关注
原创 Delta, Hudi, Iceberg对比
概述 Delta商业版功能相对完善, 是由Databricks主推其他计算引擎的优先级是弱于Spark的并且付费, 社区版是商业版的简化, 功能支持没有商业版完善, 适合Spark为核心技术组件的公司.Hudi同样紧耦合Spark功能相对比较完善,但是扩展性比较差, 使用其他计算引擎的话开发工作量较大. 适合Spark为核心技术组件的公司.Iceberg设计之初就是定位于提供一个开放可扩展的表格式, 因此扩展性最好, 不和任何计算引擎强耦合.对Flink的支持度相对完善.目前缺少小文件合并功能, 在upse
2022-01-19 19:54:08
1600
原创 Hadoop集群 增加节点/增加磁盘
在虚拟机中新建一个机器。 设置静态IP 将修改/etc/hosts 192.168.102.10 master 192.168.102.11 slave-1 192.168.102.12 slave-2 192.168.102.13 slave-3 192.168.102.14 slave-4 在然后在其他节点hosts文件中增加 192.168.102.14 slave-4 修改hostname 命令hostnamectl set-hostname Slave-4 通过hostna.
2021-11-21 15:41:19
1303
原创 MapReduce执行流程
数据处理总流程 MapReduce计算框架体现的是一个分治的思想。及将待处理的数据分片在每个数据分片上并行运行相同逻辑的map()函数,然后将每一个数据分片的处理结果汇集到reduce()函数进行规约整理,最后输出结果。 总体上来说MapReduce的处理流程从逻辑上看并不复杂。对于应用Hadoop进行数据分析的开发人员来说,只需实现map()方法和reduce()方法就能完成大部分的工作。正是因为Hadoop逻辑上和开发上都不复杂使它被广泛的应用于各行各业。 Map阶段 Map阶段更为详细的处理
2021-11-09 12:38:19
1469
原创 Iceberg概述
背景 随着大数据领域的不断发展, 越来越多的概念被提出并应用到生产中而数据湖概念就是其中之一, 其概念参照阿里云的简介: 数据湖是一个集中式存储库, 可存储任意规模结构化和非结构化数据, 支持大数据和AI计算.数据湖构建服务(Data Lake Formation, DLF)作为云原生数据湖架构核心组成部分, 帮助用户简单快速地构建云原生数据湖解决方案. 数据湖构建提供湖上元数据统一管理、企业级权限控制, 并无缝对接多种计算引擎, 打破数据孤岛, 洞察业务价值. 数据湖解决方案中关键的一个环节就是数据存储和
2021-11-05 18:10:12
943
HTML.5与CSS.3权威指南源代码
2013-05-25
HTML.5与CSS.3权威指南
2013-05-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人