大数据
文章平均质量分 87
进击的小白菜
愿再回首有迹可循~
展开
-
大数据学习|理解和对比 Apache Hive 和 Apache Iceberg
Hive是一个成熟的数据仓库解决方案,特别适合于批处理和数据仓库应用。Iceberg是一个更为现代的数据表格式,提供了更强的事务支持和性能优化,适用于需要更灵活数据管理和实时处理的应用场景。选择 Hive 还是 Iceberg 取决于具体的业务需求和技术背景。如果你的应用需要支持事务处理和更高的读写性能,Iceberg 可能是一个更好的选择。如果你的应用主要是批处理且对现有 Hadoop 生态系统有较高的依赖度,那么 Hive 仍然是一个可行的选择。原创 2024-09-03 22:22:20 · 990 阅读 · 0 评论 -
大数据|使用Apache Spark 删除指定表中的指定分区数据
Apache Spark 是一个强大的分布式数据处理引擎,支持多种数据处理模式。在处理大型数据集时,经常需要对数据进行分区,以提高处理效率。有时,为了维护数据或优化查询性能,需要删除指定表中的指定分区数据。本文档将介绍如何使用 Spark SQL 和 DataFrame API 来删除指定表中的指定分区数据,并提供使用时的注意事项以及常见相关问题及其处理方法。原创 2024-07-26 23:13:56 · 1196 阅读 · 0 评论