spark
zyj_369
曾经的我 一身迷彩 手握钢枪 现在的我 对新科技充满着无限好奇 喜欢专研大数据技术 希望可以和志同道合的人一起加油 一起圆梦
展开
-
spark core 项目之通过两张表的关联字段求取TopN
一、数据源下载链接: ip.txtlogs.txt数据结构:logs.txt 记录了网站访问记录,有对应IPip.txt 记录了用户的相关信息,有IP的最小值和最大值、省份二、项目需求根据 logs.txt中IP 转换去 IP.txt 中查找IP对应省份,计算每个省份的网站访问次数三、代码展示import org.apache.log4j.{Level, Logger}import org.apache.spark.broadcast.Broadcastimport org.apache原创 2020-10-14 17:09:50 · 251 阅读 · 0 评论 -
spark core 持久化、自定义分区、数据读取与保存、共享变量
一、RDD持久化RDD缓存RDD通过persist方法或cache方法可以将前面的计算结果缓存,默认情况下 persist() 会把数据以序列化的形式缓存在 JVM的堆空间中。但是并不是这两个方法被调用时立即缓存,而是触发后面的action时,该RDD将会被缓存在计算节点的内存中,并供后面重用。源码显示cache最终也是调用了persist方法,默认的存储级别都是仅在内存存储一份,Spark的存储级别还有好多种,存储级别在object StorageLevel中定义的。RDD CheckPo原创 2020-10-12 21:22:10 · 321 阅读 · 1 评论 -
spark core入门项目之统计TopN
数据源:数据结构:时间戳,省份,城市,用户,广告,中间字段使用空格分割数据源下载链接:项目需求1.统计出每一个省份广告被点击次数的TOP3import org.apache.log4j.{Level, Logger}import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object Demo01AD { def main(args: Array[String]): Unit = {原创 2020-10-12 19:23:41 · 417 阅读 · 0 评论 -
sparkCore RDD解析、算子用法详解
一、RDD概述1. 什么是RDDRDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。2.RDD的属性一组分区(Partition),即数据集的基本组成单位;一个计算每个分区的函数;RDD之间的依赖关系;一个Partitioner,即RDD的分片函数;一个列表,存储存取每个Partition的优先位置(preferred location)3. R原创 2020-10-12 18:29:57 · 212 阅读 · 0 评论 -
spark概述、原理分析、集群部署快速上手
一、spark概述spark是什么?spark是一种基于内存的快速的、通用、可扩展的大数据分析引擎spark内置模块Spark Core:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。SparkCore中还包含了对弹性分布式数据集(Resilient Distributed DataSet,简称RDD)的API定义。Spark SQL:是Spark用来操作结构化数据的程序包。通过Spark SQL,我们可以使用 SQL或者ApacheHive版.原创 2020-10-12 11:00:23 · 343 阅读 · 2 评论
分享