大数据
文章平均质量分 75
旺仔小小滑头
这个作者很懒,什么都没留下…
展开
-
Hive的索引
Hive支持索引,但是Hive的索引与关系型数据库中的索引并不相同,比如,Hive不支持主键或者外键。Hive索引可以建立在表中的某些列上,以提升一些操作的效率,例如减少MapReduce任务中需要读取的数据块的数量。在可以预见到分区数据非常庞大的情况下,分桶和索引常常是优于分区的。而分桶由于SMB Join对关联键要求严格,所以并不是总能生效。Hive索引是Hive中用于提高查询性能的一种机制。它们类似于传统数据库中的索引,可以加速数据检索操作。原创 2024-04-14 22:48:56 · 928 阅读 · 1 评论 -
Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive
Hive 在处理 join 操作时,会根据表的大小进行优化选择合适的 join 算法。对于一个相对较小的表,Hive 会选择使用 Map Join 来加速处理,这种方式将小表的数据加载到内存中,以提高查询效率。然而,当内存无法容纳全部小表数据时,就会出现内存溢出错误。原创 2024-03-31 22:16:04 · 555 阅读 · 1 评论 -
Sqoop相关介绍
sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统;从Hadoop的HDFS、HIVE中导出数据到关系数据库mysql等将导入或导出命令翻译成mapreduce程序来实现。Sqoop的特点:1) 专门为Hadoop而生,随Hadoop版本更新支持程度好,且原本即是从CDH版本孵化出来的开源项目,支持CDH的各个版本号。原创 2024-04-14 17:07:35 · 673 阅读 · 1 评论