Hudi
文章平均质量分 89
AIMaynor
个人博客:maynor1024.live,ai网站:api.maynor1024.live
展开
-
Hudi数据湖技术引领大数据新风口(四)核心概念
这会在最新的几个分区里大幅提高裁剪文件的效益。上图为例,白色是基本文件,黄色是更新数据,有了索引机制,可以做到:避免读取不需要的文件、避免更新不必要的文件、无需将更新数据与历史数据做分布式关联,只需要在 File Group 内做合并。(1)元数据:.hoodie目录对应着表的元数据信息,包括表的版本管理(Timeline)、归档目录(存放过时的instant也就是版本),一个instant记录了一次提交(commit)的行为、时间戳和状态,Hudi以时间轴的形式维护了在数据集上执行的所有操作的元数据;原创 2023-09-25 00:00:00 · 560 阅读 · 1 评论 -
Hudi数据湖技术引领大数据新风口(三)解决spark模块依赖冲突
📢数据湖专栏持续更新,欢迎订阅:https://blog.csdn.net/xianyu120/category_12388063.html。修改了Hive版本为3.1.2,其携带的jetty是0.9.3,hudi本身用的0.9.4,存在依赖冲突。否则在使用DeltaStreamer工具向hudi表插入数据时,也会报Jetty的错误。📢博客主页:https://manor.blog.csdn.net。📢不能老盯着手机屏幕,要不时地抬起头,看看老板的位置⭐。原创 2023-07-25 09:30:41 · 647 阅读 · 0 评论 -
Hudi数据湖技术引领大数据新风口(二)编译安装
通过网址下载:http://packages.confluent.io/archive/5.3/confluent-5.3.4-2.12.zip。(1)上传apache-maven-3.6.1-bin.tar.gz到/opt/software目录,并解压更名。也可以从github下载:https://github.com/apache/hudi/将hudi-0.12.0.src.tgz上传到/opt/software,并解压。(1)修改setting.xml,指定为阿里仓库地址。(2)修改依赖的组件版本。原创 2023-07-25 09:29:31 · 293 阅读 · 0 评论 -
Hudi:数据湖技术引领大数据新风口
Apache Hudi(Hadoop Upserts Delete and Incremental)是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi提供了表、事务、高效的upserts/delete、高级索引、流摄取服务、数据集群/压缩优化和并发,同时保持数据的开源文件格式。Apache Hudi不仅非常适合于流工作负载,而且还允许创建高效的增量批处理管道。Apache Hudi可以轻松地在任何云存储平台上使用。原创 2023-07-24 10:10:52 · 1477 阅读 · 0 评论