Hive
文章平均质量分 82
帮你问
这个作者很懒,什么都没留下…
展开
-
Hive 自定义函数-UDF
为什么要自定义函数hive的内置函数无法满足实际开发环境的所有情况,这个时候需要我们根据业务自定义函数来解决问题。hive提供了很多模块的自定义功能,如:serde、自定义函数、输入输出格式化等常见的自定义函数UDF:User Define Function.一对一的输入输出,非常使用。UDAF:User Define Agregation Function.用户的自定义聚合函数。多对一的输入输出 UDTF:User Define Table‐Generate Function.用户自定的表生原创 2020-07-06 17:15:09 · 196 阅读 · 0 评论 -
HQL 复杂数据类型
array案例重庆市 渝中区,江北区,南岸区,沙坪坝区,九龙坡区,渝北区,大渡口区,巴南区,北碚区浙江省 杭州市,绍兴市,宁波市,台州市create table `users`.`t_view`(pageid string,adid_list array<int>)row format delimitedfields terminated by '\t'collection items terminated by ',';注意事项1. 在建表的时候指定某字段的类型:a原创 2020-07-03 20:51:17 · 442 阅读 · 0 评论 -
HQL 日期函数
1 current_date():返回当前日期select current_date;# 结果:2020-07-032 current_timestamp():返回当前时间select current_timestamp();# 结果:2020-07-03 12:42:25.7253 add_months(start_date, num_months):返回开始日期后num_months的日期select current_date;# 结果:2020-07-03select add_m原创 2020-07-03 17:00:46 · 6984 阅读 · 0 评论 -
HQL按班级排序问题
排序函数row_number():没有并列,相同名次顺序排列rank():有并列,相同名次采取空位dense_rank():有并列,相同名次不空位数据01 gp1802 8402 gp1801 8403 gp1802 8404 gp1802 8405 gp1801 8106 gp1802 8107 gp1802 8108 gp1801 8109 gp1802 8110 gp1802 8111 gp1803 8112 gp1802 8913 gp1802 8914 gp1原创 2020-07-03 11:15:29 · 166 阅读 · 0 评论 -
HQL 虚拟视图和行转列函数
案例array 行转列create table `users`.`t_view`(pageid string,adid_list array<int>)row format delimitedfields terminated by '\t'collection items terminated by ',';# 语法lateralView: LATERAL VIEW udtf(expression) tableAlias AS columnAlias (',' col原创 2020-07-03 10:57:22 · 123 阅读 · 0 评论 -
HQL 静态分区
1. 什么是分区直白一点来说,分区就是在表目录下建立子目录。2. 为什么要使用分区随着系统运行时间的增长,数据文件就会越来越大,当Hive对文件进行搜索时,会对全表进行搜索,导致效率降低。而分区的作用就是将表目录下的文件进行分类,将数据分类后进行存储,这样就会避免全表搜索,提高查询效率。3.什么是静态分区静态分区就是添加数据时需要手动指定分区4. 创建静态分区4.1 语法CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name原创 2020-07-02 11:56:21 · 360 阅读 · 0 评论 -
HQL表操作
1 创建表1.1 语法#1. CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name # 表名[(col_name data_type [COMMENT col_comment], ...)] # 列名[COMMENT table_comment] #表批注[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] # 分区[CLU原创 2020-07-01 19:48:11 · 408 阅读 · 0 评论 -
HQL 数据库操作
1 创建数据库1.1 语法CREATE DATABASE [IF NOT EXISTS] database_name # 指定库名称 [COMMENT database_comment] # 库批注 [LOCATION hdfs_path] # 指定库的位置 [WITH DBPROPERTIES (property_name=property_value, ...)]; # 指定库的属性信息1.2 实例CREATE DATABASE IF NOT EXISTS EmployeeCOM原创 2020-07-01 12:39:43 · 262 阅读 · 0 评论 -
Hive的配置安装教程
1. 环境要求jdk,安装目录:/usr/localhadoop,安装目录:/usr/local2. Hive安装模式内嵌模式使用Hive自带默认元数据库derby来进行存储,一般用于测试。优点:使用简单,不需要配置缺点:只支持单session本地模式使用mysql替换derby进行元数据的存储,hive的相关进程都是在同一台机器上,即本地模式。mysql因为是 独立的进程,所以mysql可以和hive在同一机器上,也可以在其他机器上。通常使用关系型数据库进行元数据原创 2020-06-19 19:51:38 · 210 阅读 · 0 评论