![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
机智的小狐狸
这个作者很懒,什么都没留下…
展开
-
Hbase查询条件,sql where条件转换为FilterList
需求:将sql表达式的where条件转换为FilterList,简化开发代码量。例:( 3014 > 10 or 2205 > 100 ) and 3001 = 1转换结果为:FilterList AND (2/2): [SingleColumnValueFilter (can, 3001, EQUAL, 1), FilterList OR (2/2): [SingleColu...原创 2019-10-21 10:10:40 · 557 阅读 · 0 评论 -
SparkSQL 之自定义函数UDAF
需求:计算1-10的几何平均数需要继承UserDefinedAggregateFunction 并重写方法 含义见注释package cn.UDAFimport java.langimport org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}import o...原创 2019-02-08 16:48:25 · 633 阅读 · 0 评论 -
SparkSQL 之3种join
转载自:http://hbasefly.com/2017/03/19/sparksql-basic-join/Join常见分类以及基本实现机制当前SparkSQL支持三种Join算法-shuffle hash join、broadcast hash join以及sort merge join。其中前两者归根到底都属于hash join,只不过在hash join之前需要先shuffle还是先b...转载 2019-02-10 21:32:46 · 392 阅读 · 0 评论 -
SparkSQL 之内置函数之时间日期类
一、获取当前时间current_date获取当前日期2018-04-09current_timestamp/now()获取当前时间2018-04-09 15:20:49.247二、从日期时间中提取字段year,month,day/dayofmonth,hour,minute,secondExamples: > SELECT day('2009-07-30');...转载 2019-02-16 20:45:27 · 5375 阅读 · 0 评论 -
SparkSQL 之rank() over, dense_rank(), row_number() 的区别
假设现在有一张学生表student,学生表中有姓名、分数、课程编号,现在我需要按照课程对学生的成绩进行排序。 select * from studentrank over ()可以实现对学生排名,特点是成绩相同的两名是并列,如下1 2 2 4 5 select name, course, rank() over(partition by course or...转载 2019-02-16 20:52:35 · 6108 阅读 · 1 评论 -
SparkSQL 之处理Float Double浮点数据类型
数据源信息样例: GCSL00000673,0,JL225390810101,1,286.5,286.5 GCSL00000673,1,84126312010104,1,329.7,329.7 GCSL00000673,2,24126312011502,1,412.2,412.2 GCSL00000673,3,84126388563204,1,372.9,372.9 GCSL0...原创 2019-02-17 17:08:49 · 4935 阅读 · 0 评论 -
SparkStreaming 之整合kafka0.8
直接贴代码,注释内都有详细解释:pom依赖:<!--SparkStreaming 整合kafka0.8版本--> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-ka...原创 2019-02-17 20:39:26 · 605 阅读 · 0 评论 -
SparkStreaming 之整合kafka0.10以上版本
直接贴代码,注释内都有详细解释:pom依赖: <!--SparkStreaming 整合kafka0.10版本--> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-...原创 2019-02-17 20:43:20 · 1372 阅读 · 0 评论