Hive
hive是基于Hadoop构建的一套数据仓库分析系统
ChenPD27595
The only thing stronger than your craving for blood is your love for this one girl.
展开
-
Impala入门操作
Hue页面:账户密码:admin 访问端口号 8888impala 登录指令 impala-shell --quiet/ impala-shell -i doitcdh --quietimpala中建表hive中可以直接看到,hive中建表inpala中见不到,需要刷新元数据invalidate metadata; --更新元数据reflush tb_a1 --更新表数据c'c'c'c'cimpala中插入数据hive中可以直接看到,hive中插入数据直接报错,需要修改以下文件ro.原创 2020-12-10 00:20:36 · 780 阅读 · 0 评论 -
Hive企业级调优
**对SQL语句的优化 统计个数使用count(1),不要使用count(*)查询字段不要select * ,使用select 字段使用特殊的存储格式 列式存储:ORC,parquet 建表的时候 stored as orc小表join大表(MR程序中的map端 jojn) 小表是个小文件可以分布式的缓存到集群的其他的maptask中,就不需要reduce端join开启map端的局部聚合 默认是开启的避免count(distinct)进行join的时候避免笛卡儿积适当的调整原创 2020-12-03 17:10:52 · 95 阅读 · 0 评论 -
Hive中的集合数据类型及功能扩展
Hive中的数据类型在hive中的数据类型①:int bigint double string timestamp②:struct 类似于java对象 pojo类③:array 数组④:map 键值对原创 2020-12-03 15:22:08 · 258 阅读 · 0 评论 -
Hive常用函数
行转列列转行1:行转列将多行的数据合并到一列中 select collect_list(empname ) from emp; --去重 select collect_set(deptno) from emp;这两个都是聚合函数 将收集的多行数据聚集成一个数组集合2:concat 拼接 参数是可变参数 拼接字符串 select concat(deptno,empno) from emp;3:concat_ws 参数一 拼接符 参数二 可变个数的字符串 数组sel原创 2020-12-01 23:28:11 · 2404 阅读 · 0 评论 -
Hive的DDL操作基础篇
建表基本语法CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] 分区[CLUSTERED BY (col_name, col_name, ...) 分桶[SORTED B原创 2020-11-28 23:34:10 · 331 阅读 · 0 评论 -
Hive的安装及Hive入门
Hive的安装mysql数据 远程连接权限1)linux中登录mysal:mysql -uroot -proot2) set global validate_password_policy=0;3) set global validate_password_length=1;这个两个设置以后 密码很简单不会报错4) 设置允许远程连接linux: grant all privileges on . to ‘root’@’%’ identified by ‘root’ with gran原创 2020-11-28 13:56:41 · 234 阅读 · 0 评论