攻城狮Kevin

爱学习,爱工作,爱生活

Hive分区表总结

Hive中的分区其实就是分目录,根据某些维度(例如时间等)将数据表分成多份,一个分区表对应HDFS文件系统上一个独立的文件夹,该文件夹下是该分区所有的数据文件; 查询时,通过where表达式选择查询所指定的分区即可,不用再查询整张表的所有数据,提高海量数据查询的效率。 (1)创建分区表 h...

2019-04-28 17:14:23

阅读数 52

评论数 0

HiveQL常用查询函数——nvl、case when、concat、collect_set、collect_list、explode & lateral view、窗口函数、rank

目录 1. nvl(value,default_value) 2. case when eg1:对表emp_sex,求每个部门男女人数 eg2:统计每个国家隶属洲的人口数(已知字段数据按照另一种条件分组) eg3:统计不同国家男女个数(完成不同条件的分组) 3. concat、conc...

2019-03-01 21:40:28

阅读数 286

评论数 0

hadoop、hbase、hive、spark分布式系统架构原理

机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统,hadoop用户分布式存储和map-reduce计算,spark用于分布式机器学习,hive是分布式数据库,hbase是分布式kv系统,看似互不相关的他们却都是基于相同的hdfs存储和yarn资源管理, hadoop、spark、Hb...

2019-02-19 08:50:36

阅读数 105

评论数 0

Hadoop和Spark的前世今生 & MR、Yarn、Spark架构原理

目录 架构原理总图 一、Hadoop的历史 -> 1.0版本 -> 缺点 -> 2.0版本 -> MapReduce架构组成: -> Yarn架构组成和运行原理: 二、Spark的历史 ->...

2019-01-23 21:44:16

阅读数 290

评论数 0

SparkStreaming消费上游kafka再生产给下游kafka场景下的executor nums设置问题

公司生产环境下原本kafka topic是0.8版本,4分区 由于数据量过大,所以需要逐渐往kafka topic 1.0版本(24分区)迁移,出现的场景如下: kafka topic 0.8(4分区) —> Spark Streaming(Spark Submit脚本)—&am...

2019-08-14 18:50:44

阅读数 15

评论数 0

mysql和Hive中指定从第m行记录开始,选取n行记录

Mysql中可以用limit m-1, n的限制语法;表中下标从0开始,从第m条记录开始取,一共取n条记录 Hive中这种语法不支持,可以用row_number() over(distribute by ... sort by ... ) rank where rank< (m+n...

2019-08-08 14:23:29

阅读数 29

评论数 0

linux中不同机器之间传输文件scp命令的用法

小一点的文件可以sz -be和rz -be实现下载和上传 大一些的文件在不同机器之间互相传递需要用到scp命令 scp ./XX.tar.gz 目标机器的ip:目标路径

2019-07-31 17:41:35

阅读数 22

评论数 0

Linux各种压缩和解压缩的命令

tar命令 解包:tar zxvf filename.tar 打包:tar czvf filename.tar dirname gz命令 解压1:gunzip filename.gz 解压2:gzip -d filename.gz 压缩:gzip filename .tar.gz 和...

2019-07-31 16:31:26

阅读数 32

评论数 0

Hive中视图和with tablename as语法的使用

一、视图 视图在hive中有点类似core draw绘图软件中的原图上面的一层一层视图 建视图语句如下 create view viewname as select XXX from 源表name where XX=XX; 目的是给字段脱敏,不同视图查询特定的字段的结果集,供不同部门使用...

2019-07-29 14:58:52

阅读数 81

评论数 0

sql运行报错处理,java.lang.reflect.InvocationTargetException

hive中sql报错如下: Task with the most failures(4): ----- Task ID: task_1555070028014_29094475_m_000004 URL: http://0.0.0.0:8088/taskdetails.jsp?jo...

2019-07-19 18:18:54

阅读数 63

评论数 0

sql优化——count(1)、count(*)与count(列名)的区别

一、从执行效果来看 1.count(1) and count(*): 基本没差别 count(*)包括了所有的列,相当于行数,在统计结果的时候,不会忽略NULL 2. count(1) and count(列名): (1) count(1) 会统计表中的所有的记录数,不会忽略NULL,包...

2019-07-12 18:28:10

阅读数 70

评论数 0

Hive三个内置date函数:datediff、date_sub、date_add用法

目录 1. datediff('endTime',‘startTime’) 2. date_sub(‘yyyy-MM-dd’,n/-m) 3. date_add('yyyy-MM-dd',n/-m) ps:三个date函数日期均只能为'yyyy-MM-dd'格式 & 'yy...

2019-06-25 18:18:22

阅读数 140

评论数 0

Hive和Shell各种日常用法的记录

目录 1. 进入脚本当前路径 2. 日期函数 (1)获取往前或往后的时间并格式化 (2)将时间戳,格式化成日期(date -d @时间戳 +%Y-%m-%d:%H:%M%S) (3)hive中时间戳函数 (4)hive查询近7天数据(datediff函数) (5)UTF世界统一时间,...

2019-06-25 18:02:38

阅读数 57

评论数 0

记一次Linux OOM排查过程,以及想到的四种优化解决方案

目录 场景: 排查: 三、最终排查原因 四、解决方案考虑有四种 (1)在kettle中对并行执行的任务增加一个随机时间等待,如下 (2)30个并行任务分3次跑 (3)考虑引入zabbix和zaa监控框架 (4)将部分项目迁移到别的服务器 场景: 公司kettle上有30个子业务...

2019-06-24 22:17:03

阅读数 64

评论数 0

alter table add partition ... location ...语法

目录 结论 建表语句 create table `wxtest`( `groupId` string, `uuid` string, `userId` string, `dt_index` string) partitioned by( `dt` string, `projId` stri...

2019-06-21 18:55:37

阅读数 309

评论数 0

IDEA与SVN关联的操作 & 关联本地SVN代码

1. 首先是IDEA与SVN的关联操作 Idea 部署SVN详细步骤以及上传、检出、提交更新步骤 2. 然后是IDEA中关联本地SVN代码 应用场景,本地SVN项目路径:D:\WMDA\trunk 然后添加svn路径 点击Checkout后,找到SVN项目所在的本地目录,点击ok...

2019-06-21 17:50:46

阅读数 327

评论数 0

对Set的遍历,Iterator形式

对Set集合的遍历,利用Iterator,代码如下: HashSet<String> set = new HashSet<>(); set.add("1"); set.add("5"); set.a...

2019-06-21 11:25:47

阅读数 46

评论数 0

java -cp和java -jar的区别 &【MR提交到yarn的api】

java -cp和java -jar都是运行jar包,区别在于前者需要自行指定主类,后者必须jar包中指定了主类 用maven导出的包中,如果没有在pom文件中将依赖包打进去,是没有依赖包。 1.打包时指定了主类,可以直接用java -jar xxx.jar。 2.打包时没有指定主类,可以用...

2019-06-19 15:14:38

阅读数 58

评论数 0

Hive的MR编程中,解析多个kv——string转map的用法

对于某个拥有多个kv的字段,例如: String:{0:3,7227205346742:1,1797840830081:1,8089654234544:1,6255030172978:1,-1:9} 这里面有6个kv,要将该string解析成map,代码如下 public class M...

2019-06-18 17:25:02

阅读数 101

评论数 0

对hive中默认分隔符含义的解释

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\u0001' COLLECTION ITEMS TERMINATED BY '\u0002' MAP KEYS TERMINATED BY '\u0003' \u0001是ASCII编码值,...

2019-06-18 17:17:41

阅读数 188

评论数 0

提示
确定要删除当前文章?
取消 删除