iceberg
大数据技术与应用实战
公众号(大数据技术与应用实战),分享一些在工作和学习过程中的大数据实战案例
展开
-
flink 写入hudi和iceberg数据湖选型对比
COW表写入的时候会有写放大的问题,所以hudi的话生产我个人觉得还是选用MOR表,针对flink写入hudi和iceberg我做了一些选型的对比。更多信息,欢迎关注我的公众号,加WX原创 2021-06-22 16:44:00 · 2233 阅读 · 0 评论 -
Flink集成iceberg在生产环境中的实践
文章目录背景flink流式数据写入iceberg压缩小文件快照过期处理数据管理ddlDml移除孤立的文件定时任务删除踩坑使用presto进行查询批任务处理手工执行sql批任务定时任务优化数据迁移总结背景在大数据处理领域,有一个非常常见但是很麻烦的问题,即hdfs小文件问题,我们也被这个问题困扰了很久。开始的时候我们是自己写的一个小文件压缩工具,定期的去合并,原理就是把待压缩数据写入一个新的临时的文件夹,压缩完,和原来的数据进行检验,数据一致之后,用压缩的数据覆盖原来的数据,但是由于无法保证事务,所以出现原创 2020-12-30 21:35:07 · 1846 阅读 · 2 评论 -
Flink集成iceberg数据湖之合并小文件
传统的流式数据入库的过程中对小文件进行合并会产生很多问题,比如流式数据不断的往hive表进行写入,如果同时有一个合并程序进行小文件的合并,那么这时候对同一份数据进行读写。会不会产生问题。如何保证事务,出错了怎么回滚呢,这些都是很棘手的问题。我们的流任务以flink为主,查询引擎是presto,所以调研以后,我决定引入iceberg来解决小文件合并的问题。原创 2020-11-24 18:38:41 · 2301 阅读 · 0 评论