技术分享
文章平均质量分 69
夜雨Y清荷
地球不爆炸,我们不放假
展开
-
Hive配置项的含义详解
hive.exec.script.maxerrsize:一个map/reduce任务允许打印到标准错误里的最大字节数,为了防止脚本把分区日志填满,默认是100000;hive.exec.script.allow.partial.consumption:hive是否允许脚本不从标准输入中读取任何内容就成功退出,默认关闭false;hive.script.operator.id.env.var:在...转载 2019-11-01 09:42:17 · 264 阅读 · 0 评论 -
scala中的《_》用法
一、scala中的《_》用法//1、方法转化为函数例如:def m1(x:Int,y:Int)=x*y val f1=m1 _//2. 集合中的每一个元素//指代一个集合中的每个元素。例如:val list=List(1,2,3,4)val list1=list.map(_ * 10)//3. 获取元组Tuple中的元素例如: val t=("hadoop",3....原创 2019-10-18 18:00:07 · 292 阅读 · 0 评论 -
hive函数中concat与concat_ws区别
concat与concat_ws区别concat():函数用于将多个字符串连接成一个字符串。语法:concat (str1,str2,…) ;返回值:string;特点:如有任何一个参数为null ,则返回值为 null。举例:-- 案例1:将test1中的字段拼接成一个字符串——》test1中的字段名abc下的数据也为abc,下同hive> select concat(ab...原创 2019-08-22 10:58:19 · 2224 阅读 · 0 评论 -
hive的高级分组
1、with cube(2的n次方)使用场景:维度字段之间无关系底层分组实现:可以实现hive多个任意维度的查询,cube(a,b,c)则首先会对(a,b,c)进行group by,然后依次是(a,b),(a,c),(a),(b,c),(b),©,最后在对全表进行group by,他会统计所选列中值的所有组合的聚合1)、group by A,B,C with cube;-- 案例:sel...原创 2019-09-17 10:37:43 · 1379 阅读 · 0 评论 -
使用Scala来实现workcount
使用Scala来实现workcount//统计line集合中的数字个数,并取出字数前三//line = List(List("hello tom hello jerry"),List("hello xiaobai hello"),List("hello tom"))//预期效果:List((hello,5), (tom,2), (jerry,1))package WordCount_o...原创 2019-09-26 14:20:22 · 306 阅读 · 0 评论 -
Spark之基站停留时间topn
Spark之基站停留时间topn一、题目根据用户产生日志的信息,在哪个基站停留留时间最长lac_info.txt 这个⽂文件中存储基站信息文件组成 基站ID, 经,纬度.log 为后缀的文件中存储着日志信息文件组成:手机号,时间戳,基站ID 连接状态(1连接 0断开)在一定时间范围内,求所用户经过的所有基站所停留时间最长的Top2二、数据2.1、lac_info.txt9F36...原创 2019-10-10 16:35:24 · 405 阅读 · 1 评论