dataframe
闻香识代码
这个作者很懒,什么都没留下…
展开
-
Spark SQL的自定义函数UDF
Spark SQL的自定义函数UDF1. 背景在SQL使用时,会有内置函数,但如果业务比较复杂,但又希望可以有更加灵活的函数使用和复用,则需要自定义UDF,就是user defined function,可以分为UDTF、UDAFUDTF,user defined table-generating function,就是将数据打散UDAF,user defined aggregating function,就是将数据聚合。2. 创建和使用UDF下述会使用案例来展示如何使用自定义函数2.1原创 2020-10-06 23:32:45 · 3594 阅读 · 0 评论 -
Spark SQL中Sparksession中的implicits探秘
Spark SQL中Sparksession中的implicits对象1. 背景在Spark SQL中,经常会需要如下代码import sparkSession.implicits._这是为了引入对象实例中的隐式转换2. 探秘源码SQLImplicits从上述源码可以看出,dataframe其实就是dataset的特殊形式...原创 2020-10-06 20:49:15 · 3825 阅读 · 0 评论 -
Spark SQL 中org.apache.spark.sql.functions归纳
Spark SQL 中org.apache.spark.sql.functions归纳注意,这里使用的是scala 2.12.12,spark版本是最新的3.0.1版本1. Sort functions/** * Returns a sort expression based on ascending order of the column. * {{{ * df.sort(asc("dept"), desc("age")) * }}} * * @group s原创 2020-10-06 20:42:22 · 2431 阅读 · 0 评论 -
Spark SQL案例(二)流量累加
Spark SQL案例(二)流量累加1. 背景本身Spark SQL支持2种风格的API,sql和dsl,各有优势,实际企业开发时,看情况选择。本文种案例是基于企业开发中常见场景抽象出来的案例,数据按照一定规则,将某些字段数据进行聚合,如流量分段累计等常见场景2. 案例需求,计算连续3天及以上登录用户数据1,2020-02-18 14:20:30,2020-02-18 14:46:30,20 1,2020-02-18 14:47:20,2020-02-18 15:20:30,30原创 2020-10-05 17:35:48 · 213 阅读 · 0 评论 -
Spark SQL案例(一)连续登录
Spark SQL案例(一)连续登录1. 背景本身Spark SQL支持2种风格的API,sql和dsl,各有优势,实际企业开发时,看情况选择。本文种案例是基于企业开发中常见场景抽象出来的案例,连续登录,连续打开等常见场景2. 案例需求,计算连续3天及以上登录用户数据guid01,2018-02-28guid01,2018-03-01guid01,2018-03-05guid01,2018-03-02guid01,2018-03-04guid01,2018-03-06gui原创 2020-10-05 17:30:52 · 335 阅读 · 0 评论 -
Spark SQL之dataframe数据保存
Spark SQL之dataframe数据保存1. 背景Spark SQL作为处理结构化数据的功能模块,本身支持SQL形式使用功能,内部也做了相对RDD更加高的抽象DataFrame也是一个抽象数据集合,但对比RDD多了schema数据结构化信息,可以将DataFrame看成是RDD+schema信息2. dataframe数据保存类型环境准备Idea2020jdk 1.8scala 2.12.12maven 3.6.3pom文件<!-- 定义了一些常量 -->原创 2020-10-05 17:07:52 · 2539 阅读 · 0 评论 -
Spark SQL之创建dataFrame的多种方法
Spark SQL之创建dataFrame的多种方法1.Spark SQL是什么官网http://spark.apache.org/sql/Spark SQL顾名思义,就是通过SQL来使用Spark强大的数据分析能力,而不用去写代码。类似一Hive,可以将框架的使用门槛极大降低。因为SQL是很多人都会使用的,而编写代码门槛相对高得多。2. dataFrame是什么官网介绍和RDD类似,dataFrame也是一个分布式抽象数据容器。并不存储数据,但会存储数据来源,数据操作以及数据结构化信原创 2020-10-05 16:56:09 · 894 阅读 · 0 评论