hive,zookeeper,hbase,sqoop,flume总结

最新推荐文章于 2024-05-28 10:55:52 发布

春野了

最新推荐文章于 2024-05-28 10:55:52 发布

阅读量1k

点赞数 1

文章标签： flume sqoop hive zookeeper hbase

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_57828771/article/details/123913220

版权

hive
Hive定义：hive是Hadoop的一个数据仓库工具可以将结构化的数据映射为一张表，并提供了类SQL查询功能。
本质：将hql转化为mapreduce程序
什么是hive？
是Facebook开源用于解决海量结构日志的数据统计
Hive处理的数据存储在hdfs上
Hive分析数据底层的实现是mapreduce
执行程序运行在yarn上
Hive的优缺点：
优：操作接口采用类SQL语法，提供快速开发的能力（简单，容易上手）
避免去写mapreduce，减少了开发人员的学习成本。
Hive的执行延迟比较高，因此Hive常用于数据分析，对实时性要求不高的场合。
因从适用于数据量较大
Hive优势在于处理大数据，对于处理小数据没有优势，因为Hive的执行延迟比较高。
Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。
缺：hive的HQL的表达能力有限
迭代式算法无法表达
数据挖掘方面不擅长，由于MapReduce数据处理流程的限制，效率更高的算法却无法实现。
Hive的效率比较低
Hive自动生成的MapReduce作业，通常情况下不够智能化
Hive调优比较困难，粒度较粗
Hive的架构：客户端
元数据
驱动器（编译器、解析器、优化器、执行器）
Hadoop
Hive和数据库的区别：查询语言、数据存储位置、数据更新、执行、执行延迟、可扩展性、数据规模
hive元数据包括哪些，存在哪里
元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；
默认存储在自带的derby数据库中，推荐使用MySQL存储Metastore
内部表外部表区别：
在删除表的时候，内部表的元数据和数据会被一起删除
外部表只删除元数据，不删除数据
往表中添加数据的5种方式：装载、追加、覆盖、插入、保留到新建表中
往分区中添加数据的3种方式：装载、追加、覆盖
order by、sort by用法区别：
Order by:全局排序只有一个reduce
Sort by:不进行全局排序有多个reduce
hive的优化

最低0.47元/天解锁文章

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
hive,zookeeper,hbase,sqoop,flume总结

hiveHive定义：hive是Hadoop的一个数据仓库工具可以将结构化的数据映射为一张表，并提供了类SQL查询功能。本质：将hql转化为mapreduce程序什么是hive？是Facebook开源用于解决海量结构日志的数据统计Hive处理的数据存储在hdfs上Hive分析数据底层的实现是mapreduce执行程序运行在yarn上Hive的优缺点：优：操作接口采用类SQL语法，提供快速开发的能力（简单，容易上手）避免去写mapreduce，减少了开发人员的学习成本。Hive的执行延迟比较高
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。