Spark
唉.
后端、云计算、大数据
展开
-
Spark SQL——开窗函数
开窗函数和聚合函数一样,都是对行的集合组进行聚合计算。开窗用于为行定义一个窗口(这里的窗口是指运算将要操作的行的集合),它对一组值进行操作,不需要使用group by子句对数据进行分组,能够在同一行中同时返回基础行的列和聚合列。开窗函数调用格式为:函数名(列) OVER(选项)第一类:聚合开窗函数 --> 排列函数(列)OVER(选项),这里的选项可以是PARTITION BY 子句,...原创 2019-11-30 12:41:52 · 1630 阅读 · 0 评论 -
Spark SQL——UDAF
Spark 的DataFrame提供了通用的聚合方法,比如count()、countDistinct()、avg()、max()、min()等等,但是这些函数是针对DateFrame设计的,当然Spark SQL也有类型安全的版本,Java和Scala语言接口都有,这些适用于强类型的DataSet。本文主要讲解一下Spark提供的两种聚合函数接口:UserDefinedAggregateFu...原创 2019-11-30 11:07:24 · 343 阅读 · 0 评论 -
Spark-Core高级篇
文章目录高级应用1、RDD的分片数量2、函数转换的问题3、RDD的持久化4、RDD的检查点机制5、RDD运行方式<1>RDD任务划分<2>RDD依赖关系<3>DAG的生成<4>Lineage6、键值对RDD分区7、RDD进阶<1>累计器<2>自定义累加器<3>广播变量高级应用1、RDD的分片数量def mak...原创 2019-04-13 13:21:50 · 238 阅读 · 1 评论 -
Spark-Core基础篇
文章目录一、RDD1、什么是RDD2、RDD的特点3、Spark的功能4、RDD的属性一、RDD1、什么是RDDRDD是Spark为简化用户的使用,对所有的底层数据进行的抽象,以面向对象的方式提供了RDD很多的方法,通过这些方法来对RDD进行计算和输出。RDD是Spark的基石,所有上层模块全部都是由RDD来实现的。2、RDD的特点...原创 2019-04-13 00:47:05 · 1133 阅读 · 1 评论 -
Spark Sql应用解析
文章目录一、Spark Sql概述1、定义2、DataFrame3、DataSet二、数据转换三、Sql执行模式1、DSL模式2、SQL模式四、Spark Sql的一些简单操作五、自定义函数1、UDF函数2、UDAF函数3、开窗函数六、集成Hive1、使用内置的Hive2、集成外部的Hive七、Spark Sql的输入和输出1、输入2、输出一、Spark Sql概述1、定义Spark Sql...原创 2019-04-14 16:13:33 · 843 阅读 · 1 评论 -
Spark MLlib-线性回归
文章目录一、数学模型二、损失函数1、损失函数2、目标函数的概率解释<1>中心极限定理<2>高斯分布<3>极大似然估计与损失函数极小化等价三、最小二乘法四、梯度下降一、数学模型二、损失函数1、损失函数2、目标函数的概率解释<1>中心极限定理<2>高斯分布<3>极大似然估计与损失函数极小化等价三、最小二乘法四、梯...原创 2019-04-15 11:00:39 · 1374 阅读 · 1 评论 -
SparkStreaming应用解析(一)
文章目录一、Spark Streaming初识(1)、Spark Streaming是什么(2)、Spark Streaming关键抽象(3)、Spark Streaming整体架构(4)、Spark Streaming背压机制(5)、Spark Streaming入口(6)、Spark Streaming牛刀小试<1>、在Linux上安装Netcat<2>、WordCou...原创 2019-05-11 00:56:29 · 287 阅读 · 0 评论 -
SparkStreaming应用解析(二)
文章目录三、SparkStreaming与Kafka连接使用连接池技术三、SparkStreaming与Kafka连接首先添加依赖注入 <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-streaming-kafka --> <dependency> ...原创 2019-05-11 10:57:37 · 156 阅读 · 0 评论