RDD
闻香识代码
这个作者很懒,什么都没留下…
展开
-
Spark RDD经典基础面试题
Spark RDD经典基础面试题面试基础题SparkContext哪一端创建的的?Driver端DAG是在哪一端被构建的?Driver端RDD是在哪一端生成的?Driver端调用RDD的算子(Transformation和Action)是在哪一端调用的Driver端RDD在调用Transformation和Action时需要传入函数,函数是在哪一端声明【定义】和传入的?Driver端RDD在调用Transformation和Action时需要传入函数,请问传入的函数是在哪一端执行了原创 2020-09-30 16:24:00 · 613 阅读 · 0 评论 -
Spark总结之RDD(七)
Spark总结之RDD(七)1. 背景Spark作为大数据分布式处理引擎,在设计思想上很大参考了mapreduce的设计思想,但在编程便利性上做了更高层级的抽象,屏蔽了很多分布式计算的细节。具体体现在编程接口的抽象设计上,如RDD、dataSet、dataFrame、DStream等Spark本身分为SaprkCore,包含RDD、Accumulators、broadCast,以及内部运行机制,在此之上,有更高层级的抽象,如Spark SQL、Spark Streaming、MLib、Graphx等原创 2020-09-30 16:13:09 · 163 阅读 · 0 评论 -
Spark RDD案例(六)自定义排序
Spark RDD案例(六)自定义排序1. 背景在大数据日常开发中,数据提取,转换,存储等工作是日常主要内容spark作为大数据处理分析引擎,底层主要是RDD抽象数据集,更上层的spark sql、dataset、dataframe、dstream等都是基于RDD来抽象的。本文主要讲述关于数据提取中最常见的数据排序处理,使用RDD来实现。最主要的是自定义排序,这也是日常开发中最常见的排序需求,一般都需要自定义排序规则2.案例代码需求将数据按照年龄降序,工资升序数据代码中手原创 2020-09-29 19:56:42 · 793 阅读 · 0 评论 -
Spark总结之RDD(六)
Spark总结之RDD(六)1. 背景Spark作为大数据分布式处理引擎,在设计思想上很大参考了mapreduce的设计思想,但在编程便利性上做了更高层级的抽象,屏蔽了很多分布式计算的细节。具体体现在编程接口的抽象设计上,如RDD、dataSet、dataFrame、DStream等Spark本身分为SaprkCore,包含RDD、Accumulators、broadCast,以及内部运行机制,在此之上,有更高层级的抽象,如Spark SQL、Spark Streaming、MLib、Graphx等原创 2020-09-29 15:35:22 · 712 阅读 · 0 评论 -
Spark RDD案例(五)经纬度转换为地理位置
Spark RDD案例(五)经纬度转换为地理位置1. 背景Spark作为大数据分析引擎,本身可以做离线和准实时数据处理Spark抽象出的操作对象如RDD、dataSet、dataFrame、DStream等都是高层级的抽象,屏蔽了分布式数据处理代码细节,操作分布式数据和处理就像使用scala集合接口一样便利。这样可以很大降低编程使用和理解门槛。在实际生产中,大数据处理面临的业务需求和正常java 业务需求一样,都是基于数据做处理。不同的是正常java业务数据相对较少,如mysql中适合存储的数据是原创 2020-09-28 22:27:07 · 1351 阅读 · 1 评论 -
Spark RDD案例(四)IP和地理位置映射统计
Spark RDD案例(四)IP和地理位置映射统计1. 背景Spark作为大数据分析引擎,本身可以做离线和准实时数据处理Spark抽象出的操作对象如RDD、dataSet、dataFrame、DStream等都是高层级的抽象,屏蔽了分布式数据处理代码细节,操作分布式数据和处理就像使用scala集合接口一样便利。这样可以很大降低编程使用和理解门槛。在实际生产中,大数据处理面临的业务需求和正常java 业务需求一样,都是基于数据做处理。不同的是正常java业务数据相对较少,如mysql中适合存储的数据原创 2020-09-28 21:10:50 · 1402 阅读 · 0 评论 -
Spark RDD案例(三)连续分布数据按照条件rollup
Spark RDD案例(一)连续分布数据按照条件rollup1. 背景Spark作为大数据分析引擎,本身可以做离线和准实时数据处理Spark抽象出的操作对象如RDD、dataSet、dataFrame、DStream等都是高层级的抽象,屏蔽了分布式数据处理代码细节,操作分布式数据和处理就像使用scala集合接口一样便利。这样可以很大降低编程使用和理解门槛。在实际生产中,大数据处理面临的业务需求和正常java 业务需求一样,都是基于数据做处理。不同的是正常java业务数据相对较少,如mysql中适合原创 2020-09-26 18:00:44 · 433 阅读 · 0 评论 -
Spark RDD案例(二)连续数据统计
Spark RDD案例(一)连续数据统计1. 背景Spark作为大数据分析引擎,本身可以做离线和准实时数据处理Spark抽象出的操作对象如RDD、dataSet、dataFrame、DStream等都是高层级的抽象,屏蔽了分布式数据处理代码细节,操作分布式数据和处理就像使用scala集合接口一样便利。这样可以很大降低编程使用和理解门槛。在实际生产中,大数据处理面临的业务需求和正常java 业务需求一样,都是基于数据做处理。不同的是正常java业务数据相对较少,如mysql中适合存储的数据是小而美的原创 2020-09-26 15:24:11 · 1047 阅读 · 0 评论 -
Spark RDD案例(一)分组TopN
Spark RDD案例(一)分组TopN1. 背景作为分布式数据处理引擎,Spark抽象出了很多算子,使得编程对比mapreduce更加遍历,实现需求时,也可以更加灵活,但也更容易出错。本文是大数据常见场景分组TopN的简化案例,实际企业生产中也会相对频繁遇到类似需求2. 案例需求以下数据是类似网站日志的记录,需要求出每个科目老师访问次数最多的那2个。数据http://bigdata.doit.cn/laozhanghttp://bigdata.doit.cn/laozhangh原创 2020-09-25 21:36:34 · 1222 阅读 · 0 评论 -
Spark总结之RDD(五)
Spark总结之RDD(五)1. 背景Spark作为分布式处理引擎,针对数据分布式处理做了很多抽象,这样在API使用上,可以屏蔽更多代码细节,使得编程更加遍历Spark抽象出的有RDD、dataSet、dataFrame、DStream等RDD从行为上可以划分transformation、action、既不是transformation也不是action三大种类型RDD从api接口设计上,可以分为底层RDD,高层级RDD,高层级RDD一般是使用底层的RDD来实现,稍后源码简洁会做展示。RDD只原创 2020-09-24 20:18:44 · 432 阅读 · 0 评论 -
Spark总结之RDD(三)
Spark总结之RDD(三)1. 背景Spark作为一个分布式数据处理引擎,针对数据处理做了高层级的抽象,如RDD、dataSet、dataFrame、DStream。本文关于RDD的总结,会从使用,源码等角度进行对比和分析。一定一定注意,RDD只是一个抽象数据集合,本身不存储数据,只是记录要处理的数据来源,要做的数据处理逻辑等信息。时刻注意,RDD中的代码执行到底是在driver端执行还是在executor上执行。一定需要区分清楚,因为在driver端执行,就意味着需要加载到内存中处理,而内存原创 2020-09-23 12:16:03 · 256 阅读 · 0 评论 -
Spark总结之RDD(四)
Spark总结之RDD(四)1. 背景Spark针对RDD的整体设计思想很多地方和MapReduce相似,但又做了很多优化.Spark整体API设计针对分布式数据处理做了很多优化,并且做了更高层级的抽象,API使用更加简单便捷.例如RDD\DataSet\DataFrame\DStream等本文主要关于RDD的介绍,RDD类型较多,大的分类是Transformation和Action类型,但具体的RDD中又可以进一步细分为基础的RDD和在基础RDD之上的高级RDD(内部调用基础RDD以及各种操作)原创 2020-09-21 23:18:52 · 834 阅读 · 0 评论 -
Spark 总结之RDD(二)
Spark 总结之RDD(二)1. 背景Spark作为分布式数据处理引擎,在企业实践中大量应用.对比Mapreduce既有性能上的优势,也有开发编程上的便捷性优势.Spark针对数据处理,对编程接口做了更高层级的抽象和封装,API使用起来更加方便.其中RDD DataSet DataFrame DStream等都是抽象出来的数据处理对象.RDD使用时会屏蔽掉具体细节,操作起来就跟操作Scala的集合对象一样便捷.2. RDD常见算子和方法2.1 RDD创建 查看方法RDD创建原创 2020-09-20 22:34:46 · 329 阅读 · 0 评论 -
Spark 总结之RDD(一)
Spark 总结之RDD(一)1. 背景Spark作为大数据分析处理引擎,参考了大量MapReduce的设计思路,但也在mapreduce基础上做了更多抽象,这样的接口设计使得spark编程更加便利Spark抽象出来的有RDD DataSet DataFrame DStream等.Spark作为分布式数据处理引擎,本质还是解决2个问题,数据切分和代码逻辑切分. 数据切分,这样可以使得分布式集群中每台计算机都处理一部分数据,代码逻辑切分,使得分布式集群中每台计算机领取各自的处理任务,并行执行任原创 2020-09-20 17:53:14 · 445 阅读 · 0 评论 -
Saprk 总结之执行流程简图(Client 模式)
Saprk 总结之执行流程简图(Client 模式)1. 背景Spark作为大数据分析处理引擎,本身大量参考了Mapreduce的设计思路.Spark作为分布式数据处理引擎,本身不存储数据,只是做数据分析.目前业界一般都是和hdfs结合起来,或者和hbase等结合起来,形成完整的数据存储和数据分析解决方案.分布式数据处理技术,为了能够发挥分布式集群各个计算机的优势,主要会做两件事,一个是对要处理的数据做切分,一个是对要执行的代码做切分.否则就无法充分利用分布式集群的优势Mapreduce中,利用原创 2020-09-20 11:59:01 · 239 阅读 · 0 评论 -
Spark RDD算子案例----数据检索并保存到mysql
Spark RDD算子案例----数据检索并保存到mysql1. 背景在Spark大数据分析处理引擎中,针对数据处理,抽象出了很多基于分布式的算子。对这些算子做操作就跟对本地的集合做操作一样便利。Spark中算子类型有RDD、dataset、dataframe、dstream等。本文演示案例主要是针对RDD的操作。本文案例主要是最简化的企业开发思路,读取结构化数据,使用spark处理,结果保存到mysql数据库中。(实际企业生产还会有一个OLAP过程,OLAP引擎会从结果数据库中检索数据并展示出来原创 2020-09-18 20:50:42 · 637 阅读 · 0 评论