![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
分布式大数据
文章平均质量分 84
SusanLovesTech
从小白开始学习
展开
-
spark基础之4.0-聚合函数agg的使用
文章目录1.0 背景2.0 实现方式2.1 实现基础和一些小原则2.2 实现原理2.3 代码2.4 代码亮点1.0 背景基于上一篇博客的背景, 要求,在一个dataframe中按照不同的时间跨度对item_id进行groupby来统计,最后生成不同时间跨度的df示例: 从图一转为图二图一:图二2.0 实现方式2.1 实现基础和一些小原则在使用Scala完成Spark作业时,应尽量注意一些原则,保证具有Scala风格:尽量不要定义可变的变量var;尽量不要写for循环,基本都可以通多m原创 2021-03-08 20:32:08 · 1256 阅读 · 0 评论 -
Spark基础之3.0-实践
文章目录1. Spark常规作业1.1 任务背景1.2 解决方案2. Spark Steaming作业2.1 任务背景2.2 解决方案1. Spark常规作业1.1 任务背景对每天的产生的日志进行曝光,点击等行为的PV和UV的计算,同时需要区分新老用户,然后将不同的类别的PV和UV以一列的形式展示原始日志:userId, itemId, userType, action处理完后需要不同天数统计结果,每个天数集合都是以下形式, 并将所有天数集合的数据放入同一个表格中:new_click_pv,原创 2021-02-09 15:12:40 · 406 阅读 · 0 评论 -
Spark基础之2.0-Spark Streaming
目录1. Spark Streaming简介2. Spark窗口和updateStateByKey的使用1. Spark Streaming简介Spark Streaming是Spark提供的,对于大数据实时计算的一种框架, 底层依旧是Spark Core,因此基本的计算模型,还是基于内存的大数据实时计算模型.而且底层的组件核心还是RDD只不过针对实时计算的特点,在RDD之上进行了一层封装,叫DStream,其实底层和封装的Dataframe一样都是RDD, 因此 RDD是Spark的核心Spark原创 2021-02-08 17:22:05 · 145 阅读 · 2 评论 -
Spark基础之1.0-原理
1. Hadoop与spark的关系Hadoop是典型的大数据批量处理架构,有HDFS负责静态数据的存储,并通过MapReduce将计算逻辑分配到个数据节点进行数据计算;将每次MapReduce的结果从内存写入磁盘,IO很大;Spark与Hadoop配合开发,将数据一直存在内存当中,指导获取最后的结果后才会写入磁盘;伯克利大学将 Spark 的整个生态系统成为 伯克利数据分析栈(BDAS),在核心框架 Spark 的基础上,主要提供四个范畴的计算框架:3.1 spark SQL 提供S原创 2021-02-07 21:19:09 · 153 阅读 · 1 评论 -
1.1-Spark入门之HDFS(理论篇)
HDFS全称是Hadoop Distributed File System转载 2019-01-03 15:07:13 · 396 阅读 · 0 评论