![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
文章平均质量分 89
逆水行舟如何
热爱开源,喜欢去研究各种源码
展开
-
Hive SQL转化为MapReduce的过程
编译 SQL 的任务是在上节中介绍的 COMPILER(编译器组件)中完成的。Hive将SQL转化为MapReduce任务,整个编译过程分为六个阶段:词法、语法解析: Antlr 定义 SQL 的语法规则,完成 SQL 词法,语法解析,将 SQL 转化为抽象语法树 AST TreeAntlr是一种语言识别的工具,可以用来构造领域语言。使用Antlr构造特定的语言只需要编写一个语法文件,定义词法和语法替换规则即可,Antlr完成了词法分析、语法分析、语义分析、中间代码生成的过程。语义解析:原创 2021-05-25 21:21:39 · 5466 阅读 · 0 评论 -
数据仓库分层设计(基于Hive)
1、数据仓库逻辑分层架构 先来看数据仓库的逻辑分层架构: 分层名称可能不一样,但基本是都是这样想要看懂数据仓库的逻辑分层架构,先要弄懂以下概念数据源 : 数据来源,互联网公司的数据来源随着公司的规模扩张而呈递增趋势,同时自不同的业务员,比如埋点采集,客户上报,API等。 ODS层 : 数据仓库源头系统的数据表通常会原封不动地存储一份,这称为ODS层,ODS层也经常会被称为准备层。这一层做的工作是贴源,而这些数据和源系统的数据是同构,一般对这些数据分为全量更新和增量更新,通常在贴...原创 2020-09-14 16:28:07 · 1487 阅读 · 0 评论 -
详解Hive分区和分桶
一、分区 hive表就是hdfs的上的一个目录hive表中的数据,其实就是对应了HDFS上的一个目录下的数据概念:对hive表的数据做分区管理创建分区表:create table student_ptn(id int, name string) partitioned by (age int, department string) row format ...原创 2019-12-17 17:46:24 · 642 阅读 · 0 评论 -
Hive常见的面试题
总结下Hive的面试点Hive可考察的内容有:基本概念、架构、数据类型、数据组织、DDL操作、函数、数据倾斜、SQL优化、数据仓库。面试数据分析工程师更多会考察DDL操作、函数、数据倾斜、Hive优化、数据仓库这些知识点。来看看具体问题吧。1、基本概念 基本概念一般会以问答题的方式进行考察,比如在面试的时候直接问:说说你对Hive的理解?Hive的作用有哪些?这种类似的问题...原创 2019-12-04 19:30:46 · 13509 阅读 · 3 评论 -
Hive如何解析Json数据
1、需求现有原始 json 数据(rating.json)如下:{"movie":"2355","rate":"5","timeStamp":"978824291","uid":"1"}{"movie":"1197","rate":"3","timeStamp":"978302268","uid":"1"}{"movie":"1287","rate":"5","timeStamp":...原创 2019-09-27 10:01:15 · 1142 阅读 · 1 评论 -
Hive性能优化的常用方法
1、性能低的原因 hive性能优化时,把HiveQL当做M/R程序来读,即从M/R的运行角度来考虑优化性能,从更底层思考如何优化运算性能,而不仅仅局限于逻辑代码的替换层面。 RAC(Real Application Cluster)真正应用集群就像一辆机动灵活的小货车,响应快;Hadoop就像吞吐量巨大的轮船,启动开销大,如果每次只做小数量的输入输出,利用率将...原创 2019-08-21 10:51:39 · 1189 阅读 · 0 评论 -
Hive常用字符串函数
1、字符串函数计算函数:Length语法:length(string A)返回值:int说明:返回字符串A的长度例子:hive> select length('iteblog') from iteblog;72、字符串反转函数:reverse语法: reverse(string A)返回值: string说明:返回字符串A的反转结果例子:hive&...原创 2019-01-27 10:40:23 · 1896 阅读 · 0 评论 -
Hive的Shell操作
一、Hive的命令行1、Hive支持的一些命令Command Descriptionquit Use quit or exit to leave the interactive shell.set key=value Use this to set value of particular configuration variable. One thing to note here...原创 2019-01-26 12:38:38 · 1500 阅读 · 0 评论 -
hive基础命令和经典题总结
1.建库:create database mybd;create database if not exists mydb;create database if not exists mydb location ‘a’2.查询数据库:查询库列表:show databases;查询库详细信息:desc database [extended] mydb3.删除数据库:drop data...原创 2018-12-18 10:26:19 · 1878 阅读 · 0 评论 -
Hive的数据倾斜
1、数据倾斜1、什么是数据倾斜?由于数据分布不均匀,造成数据大量的集中到一点造成数据热点。2、Hadoop框架的特性A、不怕数据大,怕数据倾斜B、job数比较多的作业运行效率相对比较低,如子查询比较多C、sum,count,max,min等聚集函数,通常不会有数据倾斜问题3、主要表现任务进度长时间维持在90%或者100%附近,发现只有少量的reduce子任务未完成,因为其处理的...原创 2018-12-22 17:56:14 · 196 阅读 · 0 评论