Spark
zkhong07
这个作者很懒,什么都没留下…
展开
-
Spark 常用高级算子--记录
aggregate聚合,是一个action有一个初始值,有两个函数参数,第一个是把各个分区聚合,第二个分区结果聚合例如val rdd1 = sc.parallelize(List(1,2,3,4,5,6,7,8,9), 2)rdd1.aggregate(0)(_+_, _+_) //先对第一个分区数求和,在对各个分区后的数据求和rdd1.aggregate(10)(_+_, _+_)/...原创 2019-07-12 20:51:59 · 345 阅读 · 0 评论 -
Spark本地运行代码
object demo{ def main(args:Array[string]){ val conf =new SparkConf().setAppName("demo").setMaster("local") //设置本地运行模式 local, ...原创 2019-07-12 21:07:45 · 663 阅读 · 0 评论 -
Spark下根据基站信息,计算用户停留时间最长的两个地方--记录
第一个代码在rdd设计元组的时候不太好,后面与lac表合成元组效果不好import org.apache.spark.{SparkConf, SparkContext}object CountTime {def main(args:Array[String]){ val conf =new SparkConf().setAppName("Demo").setMaster("local...原创 2019-07-15 22:17:35 · 725 阅读 · 0 评论 -
Spark集群配置和Spark-shell 一些列命令
1.安装配置JDK2.安装配置Spark,修改Spark配置文件(两个配置文件spark-env.sh和slaves)vim spark-env.sh#指定JAVA_HOME位置export JAVA_HOME=/home/hadoop/appp/java/jdk1.7.0_45#指定spark Master的IPexport SPARK_MASTER_IP=192.168.146.1...原创 2019-07-07 15:16:43 · 1331 阅读 · 0 评论 -
Spark SQL and DataFram
1.课程目标1.1.掌握Spark SQL的原理1.2.掌握DataFrame数据结构和使用方式1.3.熟练使用Spark SQL完成计算任务2.Spark SQL2.1.Spark SQL概述2.1.1.什么是Spark SQLSpark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。2.1.2.为...转载 2019-07-17 16:24:17 · 169 阅读 · 0 评论 -
Kafka-Spark实时输入练习--记录
利用kafka消息队列直接往spark 内发送数据。出现的错误有:main找不到: 解决是把所有包匹配对。包括 spark spark streaming kafka版本问题然后还是提示各种错误,把kafka包也添加进去之后 错误没有了日志代码object LoggerLevels extends Logging { def setStreamingLogLevels() ...原创 2019-07-26 21:22:58 · 148 阅读 · 0 评论