spark
xiaoliuyiting
这个作者很懒,什么都没留下…
展开
-
Eclipse 配置scala开发环境(windows)
转载:http://www.cnblogs.com/xiyuan2016/p/6626825.html1. scala2.10.4.msi 安装2. 配置SCALA_HOME 及path路径 SCALA_HOME C:\Program Files (x86)\scala PATH :%SCALA_HOME%\bin3. 安装eclipse-scala-plugin插件,下载...转载 2018-09-12 14:42:03 · 2703 阅读 · 0 评论 -
Spark笔记7之广播变量累加器
参考:共享变量通常情况下,一个传递给 Spark 操作(例如 map 或 reduce)的函数 func 是在远程的集群节点上执行的。该函数 func 在多个节点执行过程中使用的变量,是同一个变量的多个副本。这些变量的以副本的方式拷贝到每个机器上,并且各个远程机器上变量的更新并不会传播回 driver program(驱动程序)。通用且支持 read-write(读-写) 的共享变量在任务...原创 2018-11-26 11:08:03 · 144 阅读 · 0 评论 -
Spark笔记8之资源调度
资源调度: master --->worker 任务调度:driver ---> executor集群规划:计算集群包含在存储集群之下原创 2018-11-27 14:50:33 · 103 阅读 · 0 评论 -
Spark笔记9之spark shuffle
什么是Spark Shuffle 答案:每个Spark作业启动运行的时候,首先Driver进程会将我们编写的Spark作业代码分拆为多个stage,每个stage执行一部分代码片段,并为每个stage创建一批Task,然后将这些Task分配到各个Executor进程中执行。一个stage的所有Task都执行完毕之后,在各个executor节点上会产生大量的文件,这些文件会通过IO写入磁盘(...原创 2018-11-27 15:06:19 · 140 阅读 · 1 评论 -
Spark笔记10之SparkSQL
一、Shark(SparkSQL的前身)• Shark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎,由于底层的计算采用了Spark,性能比MapReduce的Hive普遍快2倍以上,当数据全部load在内存的话,将快10倍以上,因此Shark可以作为交互式查询应用服务来使用。• 除了基于Spark的特性外,Shark是完全兼容Hive的语法,表结构...原创 2018-12-08 15:48:05 · 244 阅读 · 0 评论 -
Spark笔记11之spark调优
一、分配更多的资源1、搭建集群搭建Spark集群的时候要给Spark集群足够的资源(core,memory)在spark安装包的conf下spark-env.sh SPARK_WORKER_CORES SPARK_WORKER_MEMORY SPARK_WORKER_INSTANCE 2、提交任务在提交Application的时候给Application分...原创 2018-12-08 17:17:07 · 123 阅读 · 0 评论 -
spark on yarn,Application application failed 2 times due to AM Container for app解决方法
client token: N/A diagnostics: Application application_1543827900491_0008 failed 2 times due to AM Container for appattempt_1543827900491_0008_000002 exited with exitCode: 1For more detailed ou...原创 2018-12-07 16:02:00 · 20024 阅读 · 2 评论 -
使用Idea打包spark应用,只添加需要的jar包
选择右侧框中需要的jar包,右击Extract Into Output Root就会进入左边的窗口内 再打包,就可将刚刚选择的jar一起打包到应用程序原创 2018-12-07 10:22:44 · 1445 阅读 · 0 评论 -
解决ERROR Shell: Failed to locate the winutils binary in the hadoop binary path java.io.IOException: C
1、下载 hadoop-common-2.2.0-bin-master.zip 链接如下https://pan.baidu.com/s/1OWftq66ZUeaczJgjZr9jXQ 提取码:pzc7 2、解压后配置环境变量HADOOP_HOME变量值为解压目录3、配置环境变量Path问题解决...原创 2019-01-04 11:45:52 · 6116 阅读 · 1 评论 -
[看图说话] 基于Spark UI性能优化与调试——初级篇
转载:http://www.cnblogs.com/xing901022/p/6445254.html[看图说话] 基于Spark UI性能优化与调试——初级篇Spark有几种部署的模式,单机版、集群版等等,平时单机版在数据量不大的时候可以跟传统的java程序一样进行断电调试、但是在集群上调试就比较麻烦了...远程断点不太方便,只能通过Log的形式进行数据分析,利用spark ui做性能...转载 2019-01-07 12:01:03 · 153 阅读 · 0 评论 -
【转载】Spark性能优化指南——高级篇
转载:https://www.cnblogs.com/xiaodf/p/6055803.html 前言 数据倾斜调优 调优概述 数据倾斜发生时的现象 数据倾斜发生的原理 如何定位导致数据倾斜的代码 查看导致数据倾斜的key的数据分布情况 数据倾斜的解决方案 解决方案一:使用Hive ETL预处理数据 解决方案二:过滤少数导致倾斜的key 解决方案三:提高...转载 2019-01-07 16:54:35 · 143 阅读 · 0 评论 -
Spark笔记1之Spark介绍
目录一、什么是Spark二、Spark的现状三、spark优势1、速度speed2、使用方便3、强通用性4、强适应性四、Spark中的数据模型RDD官网:https://spark.apache.org/一、什么是Spark spark:分布式计算框架,类似hadoop生态圈中的MapReduce(MR分布式计算框架),计算思想和MR相似 ...原创 2018-11-20 13:22:04 · 362 阅读 · 0 评论 -
spark笔记6之任务调度
一、术语解释•Master(standalone):资源管理的主节点(进程)•Cluster Manager:在集群上获取资源的外部服务(例如standalone,Mesos,Yarn )•Worker Node(standalone):资源管理的从节点(进程) 或者说管理本机资源的进程•Application:基于Spark的⽤用户程序•Driver Program:任务调度...原创 2018-11-26 10:36:52 · 108 阅读 · 0 评论 -
Spark配置参数详解
以下是整理的Spark中的一些配置参数,官方文档请参考Spark Configuration。Spark提供三个位置用来配置系统:Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置 环境变量:可以通过每个节点的 conf/spark-env.sh脚本设置。例如IP地址、端口等信息 日志配置:可以通过log4j.properties配置Spa...转载 2018-11-17 10:00:57 · 279 阅读 · 0 评论 -
Eclipse搭建Scala+Spark开发环境spark学习博客
1、搭建教程:https://www.cnblogs.com/wmm15738807386/p/6723391.htmlhttp://www.linuxidc.com/Linux/2015-08/120946.htm https://blog.csdn.net/ldds_520/article/details/518307212、eclipse中运行第一个scala编写的spar...原创 2018-09-12 19:56:09 · 1467 阅读 · 0 评论 -
Failed to execute goal net.alchim31.maven:scala-maven-plugin:3.2.2:testCompile问题解决
解决方法1转载:http://www.cnblogs.com/war3blog/p/7864804.html在编译spark源码的时候老师报类似的错误然后在spark 文件夹下的pom.xml里加入如下依赖,源码编译就没有报错成功编译出来了修改spark源码下的 pom.xml 文件<dependency> <groupId>net.alc...转载 2018-09-12 20:14:20 · 33745 阅读 · 4 评论 -
Spark之中map与flatMap的区别
原文链接https://blog.csdn.net/u013063153/article/details/53304087map()是将函数用于RDD中的每个元素,将返回值构成新的RDD。flatmap()是将函数应用于RDD中的每个元素,将返回的迭代器的所有内容构成新的RDD,这样就得到了一个由各列表中的元素组成的RDD,而不是一个列表组成的RDD。有些拗口,看看例子就明白了。...转载 2018-09-18 15:13:47 · 1005 阅读 · 0 评论 -
Spark Streaming + Kafka集成
1、新建scala-maven项目pom.xml配置 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.2.0</version>原创 2018-09-13 16:27:52 · 148 阅读 · 0 评论 -
找不到SparkSession
在pom.xml加以下依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <version>2.2.0</version> &原创 2018-09-13 16:43:02 · 3750 阅读 · 4 评论 -
spark问题集锦
目录spark-submit报错:Application application_1529650293575_0148 finished with failed statusSpark on Yarn 查看日志及状态的命令关于在Spark集群中读取本地文件抛出找不到文件异常的问题HDFS基本命令的使用spark读取外部配置文件之--filesSparkApplication...转载 2018-10-15 16:16:16 · 1748 阅读 · 0 评论 -
Spark应用程序第三方jar文件依赖解决方案
转载https://www.cnblogs.com/dinghong-jo/p/7873646.html第一种方式操作:将第三方jar文件打包到最终形成的spark应用程序jar文件中应用场景:第三方jar文件比较小,应用的地方比较少第二种方式操作:使用spark-submit提交命令的参数: --jars要求:1、使用spark-submit命令的机器上存在对应的ja...转载 2018-11-16 15:02:43 · 840 阅读 · 0 评论 -
spark笔记2之spark粗略运行流程
目录一、Spark粗略的运行流程二、代码流程1、创建一个SparkConf2、创建一个上下文对象SparkContext3、创建一个RDD4、使用transformations类算子进行各种各样的数据转换5、使用Action类算子触发执行6、关闭上下文对象分布式文件系统(File system)--加载RDDtransformations延迟执行--针对RD...原创 2018-11-21 18:58:47 · 142 阅读 · 0 评论 -
spark笔记3之spark的持久化(第一个WordCount)
一、WordCount代码package com.test5.scalaTestimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextobject WordCount{ def main(args : Array[String]){ val conf = new SparkConf()...原创 2018-11-21 20:04:33 · 180 阅读 · 0 评论 -
Spark笔记5之提交任务到Yarn集群
一、client cluster提交方式的原理1、 client提交方式原理如下图流程1、在client客户端,提交应用程序(client方式),在客户端节点上启动了一个Driver进程2、Driver向master发送消息(为当前Application申请资源 走的7077端口)3、Master资源充足,就会为当前Application分配资源,master找资源充足的wor...原创 2018-11-22 10:59:06 · 898 阅读 · 0 评论 -
Spark history-server详解
转载:https://blog.csdn.net/yu0_zhang0/article/details/80396080这里作者和大家一起学习Spark 中的history-server,那他到底是什么呢?该如何去学习呢? 我们可以带着下面几个问题进行详细的学习于思考: 1. history-server产生背景 2. history-server的作用 3. 如何配置和使用 4. ...转载 2019-01-16 19:58:07 · 1197 阅读 · 0 评论