spark
GE12
这个作者很懒,什么都没留下…
展开
-
Spark -14:spark Hadoop 高可用模式下读写hdfs
第一种,通过配置文件 val sc = new SparkContext() sc.hadoopConfiguration.set("fs.defaultFS", "hdfs://cluster1"); sc.hadoopConfiguration.set("dfs.nameservices", "cluster1"); sc.hadoopConfigurati原创 2017-02-22 16:37:48 · 4216 阅读 · 0 评论 -
Spark -11:Spark Submit提交历史应用程序删除
/spark/work/目录下存放提交的任务程序定时删除,否则占用磁盘空间原创 2017-02-23 11:42:37 · 2696 阅读 · 0 评论 -
Spark -13:作业计划
概述Spark具有用于在计算之间调度资源的若干设施。首先,回想一下,如集群模式概述中所述,每个Spark应用程序(SparkContext的实例)运行一组独立的执行器进程。Spark运行的集群管理器提供用于跨应用程序调度的工具。其次, 在每个Spark应用程序中,如果多个“作业”(Spark操作)由不同的线程提交,它们可能会同时运行。如果您的应用程序通过网络提供请求,这是很常见的。Spar原创 2017-03-08 15:35:48 · 765 阅读 · 0 评论 -
Spark -10:高可用模式配置
默认情况下,Standalone的Spark集群是Master-Slaves架构的集群模式,由一台master来调度资源,这就和大部分的Master-Slaves结构集群一样,存在着Master单点故障的问题。如何解决这个单点故障的问题呢?Spark提供了两种方案:基于文件系统的单点恢复(Single-Node Recovery with Local Filesystem)和基于zooke原创 2017-02-23 11:10:52 · 2276 阅读 · 0 评论 -
Spark Streaming-1:Spark Streaming编程指南
翻译:http://spark.apache.org/docs/latest/streaming-programming-guide.html概述Spark Streaming是核心Spark API的扩展,能够对实时数据流进行可扩展,高吞吐量,容错的流处理。数据可以从诸如Kafka,Flume,Kinesis或TCP套接字的许多源中提取,并且可以使用由诸如map, reduce,原创 2017-01-19 16:14:39 · 818 阅读 · 0 评论 -
Spark Streaming -2. Kafka集成指南(Kafka版本0.10.0或更高版本)
在spark1.3版本后,kafkautil里面提供了两个创建dstream的方法,1、KafkaUtils.createDstream构造函数为KafkaUtils.createDstream(ssc, [zk], [consumer group id], [per-topic,partitions] ) 使用了receivers来接收数据,利用的是Kafka高层次的消费者a原创 2016-11-22 10:20:19 · 16124 阅读 · 3 评论 -
Spark SQL Hive Tables
Spark SQL also supports reading and writing data stored in Apache Hive. However, since Hive has a large number of dependencies, these dependencies are not included in the default Spark distribution.原创 2017-06-28 16:43:00 · 1021 阅读 · 0 评论 -
spark读取MySQL大Table的效能问题
在测试从Spark Shell读取MySQL一张Large Table时,发生了Out of memory和connection timeout问题,记录一下处理的过程:MySQL Table资料笔数:1400万笔左右Spark Cluster配置:Master * 1,Slave * 3,皆为1 core 8G Spark版本:2.1.1星火配置配置:spark-en转载 2017-07-05 11:24:16 · 7103 阅读 · 0 评论 -
Spark:Master High Availability(HA)高可用配置
Spark Standalone集群是Master-Slaves架构的集群模式,和大部分的Master-Slaves结构集群一样,存在着Master单点故障的问题。如何解决这个单点故障的问题,Spark提供了两种方案:基于文件系统的单点恢复(Single-Node Recovery with Local File System)基于zookeeper的Standby Masters(Sta原创 2017-02-22 11:41:23 · 1854 阅读 · 0 评论 -
Spark ML -1:ALS推荐算法
矩阵分解推荐系统,最基本的一个数据就是,用户-物品的评分矩阵,如下图1所示 图1 矩阵中,描述了5个用户(U1,U2,U3,U4 ,U5)对4个物品(D1,D2,D3,D4)的评分(1-5分),- 表示没有评分,现在目的是把没有评分的 给预测出来,然后按预测的分数高低,给用户进行推荐。ALS 的核心就是下面这个假设:打分原创 2017-04-13 10:11:36 · 2799 阅读 · 1 评论 -
Spark -12:spark checkpoint机制
一般来说,分布式数据集的容错性有两种方式:数据检查点和记录数据的更新。 面向大规模数据分析,数据检查点操作成本很高,需要通过数据中心的网络连接在机器之间复制庞大的数据集,而网络带宽往往比内存带宽低得多,同时还需要消耗更多的存储资源。 因此,Spark选择记录更新的方式。但是,如果更新粒度太细太多,那么记录更新成本也不低。因此,RDD只支持粗粒度转换,即只记录单个块上执行的单个操作,然后将创建RD原创 2017-02-28 16:58:04 · 865 阅读 · 0 评论 -
Spark -9:Spark SQL, DataFrames and Datasets 编程指南
翻译:http://spark.apache.org/docs/latest/sql-programming-guide.html概述Spark SQL是用于结构化数据处理的Spark模块。与基本Spark RDD API不同,Spark SQL提供的接口为Spark提供了有关数据结构和正在执行的计算的更多信息。在内部,Spark SQL使用这些额外的信息来执行额外的优化。有几种方原创 2017-01-19 16:37:16 · 930 阅读 · 0 评论 -
Spark -7:提交spark应用程序
Spark的bin目录中的 spark-submit脚本用于启动集群上的应用程序。它可以通过统一的接口使用Spark的所有支持的集群管理器,因此您不必为每个集群管理器专门配置您的应用程序捆绑应用程序的依赖关系如果您的代码依赖于其他项目,则需要将它们与应用程序一起打包,以便将代码分发到Spark集群。为此,请创建一个包含代码及其依赖关系的程序集jar(或“uber”jar原创 2017-01-19 15:20:38 · 891 阅读 · 0 评论 -
Spark -5:Standalone 集群模式
翻译:http://spark.apache.org/docs/latest/spark-standalone.html#standby-masters-with-zookeeper将Spark Standalone安装到群集1.编译源码2.直接下载手动启动集群启动master节点./sbin/start-master.sh原创 2016-11-07 10:15:12 · 1576 阅读 · 0 评论 -
Spark -3:三种集群模式
Spark支持以下3中集群管理器:Standalone – Spark自带的一个简单的集群管理器,这使得启动一个Spark集群变得非常简单。Apache Mesos – 一种可以运行Hadoop MapReduce或者服务型应用的通用集群管理器。Hadoop YARN – Hadoop 2的集群管理器。原创 2016-11-14 10:50:37 · 4706 阅读 · 0 评论 -
Spark -1:入门概述
Apache Spark™是用于大规模数据处理的快速和通用引擎。快速在内存中运行程序的速度比Hadoop MapReduce快100倍,或者在磁盘上运行速度快10倍。Apache Spark具有支持循环数据流和内存计算的高级DAG执行引擎。使用方便在Java,Scala,Python,R中快速编写应用程序。Spark提供超过80个高级运算符,原创 2016-11-23 11:38:59 · 872 阅读 · 0 评论 -
Spark -2:下载安装
下载地址http://spark.apache.org/downloads.html1.选择一个spark版本2.选择依赖的Hadoop版本3.选择下载镜像spark会根据选择条件生成相应版本包,可以直接下载注意:从2.0开始,Spark是默认使用Scala 2.11构建的。 Scala 2.10用户应该下载Spark源码原创 2017-01-19 10:30:54 · 4325 阅读 · 0 评论 -
Spark -6:运行Spark on YARN
翻译:http://spark.apache.org/docs/latest/running-on-yarn.html支持在YARN上运行(Hadoop NextGen)在Spark0.6.0版本,并在以后的版本中得到改进。在YARN上启动Spark确保HADOOP_CONF_DIR或YARN_CONF_DIR指向包含Hadoop集群的(客户端)配置文件的目录。原创 2017-01-19 15:04:36 · 3438 阅读 · 0 评论 -
spark mllib 频繁项 FPGrowth
package org.apache.spark.examples.mllib;// $example on$import java.util.Arrays;import java.util.List;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSpa原创 2016-03-03 11:11:13 · 1116 阅读 · 0 评论