大数据之Spark
.NET跨平台
比较认真。编程就是算法和数据结构,算法和数据结构是编程的灵魂。
展开
-
SparkSQL演示
//启动spark-shellbin/spark-shell --master spark://hadoop1:7077 --executor-memory 3g//RDD演示val sqlContext= new org.apache.spark.sql.SQLContext(sc)import sqlContext._case class Person(name:String,age:In转载 2017-10-18 21:25:03 · 577 阅读 · 1 评论 -
spark调优(六)【Spark性能优化指南——基础篇】
1 前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更快转载 2017-12-02 11:43:28 · 667 阅读 · 0 评论 -
spark调优(五)【Cigna优化Spark Streaming实时处理应用】
Cigna优化Spark Streaming实时处理应用1 框架一览事件处理的架构图如下所示。2 优化总结当我们第一次部署整个方案时,kafka和flume组件都执行得非常好,但是spark streaming应用需要花费4-8分钟来处理单个batch。这个延迟的原因有两点,一是我们使用DataFrame来强化数据,而强化数据需要从hive中读取大量的数据; 二是我们的参转载 2017-12-02 11:42:14 · 1136 阅读 · 0 评论 -
spark调优(四)【databricks spark知识库】
1 最佳实践1.1 避免使用 GroupByKey让我们看一下使用两种不同的方式去计算单词的个数,第一种方式使用 reduceByKey, 另外一种方式使用 groupByKey:val words = Array("one", "two", "two", "three", "three", "three")val wordPairsRDD = sc.parallelize(转载 2017-12-02 11:41:26 · 1482 阅读 · 0 评论 -
spark调优(三)【spark性能调优】
spark性能调优 当你开始编写Apache Spark代码或者浏览公开的API的时候,你会遇到诸如transformation,action,RDD等术语。了解到这些是编写Spark代码的基础。同样,当你任务开始失败或者你需要透过web界面去了解自己的应用为何如此费时的时候,你需要去了解一些新的名词:job, stage, task。对于这些新术语的理解有助于编写良好Spark代码。这里转载 2017-12-02 11:38:48 · 1008 阅读 · 0 评论 -
spark调优(二)【spark性能调优(官方)】
Spark调优 由于大部分Spark计算都是在内存中完成的,所以Spark程序的瓶颈可能由集群中任意一种资源导致,如:CPU、网络带宽、或者内存等。最常见的情况是,数据能装进内存,而瓶颈是网络带宽;当然,有时候我们也需要做一些优化调整来减少内存占用,例如将RDD以序列化格式保存。 本文将主要涵盖两个主题:1.数据序列化(这对于优化网络性能极为重要);2.减少内存占用以及内存调优。同时转载 2017-12-02 11:31:03 · 688 阅读 · 0 评论 -
spark调优(一)【spark参数介绍】
1 spark on yarn常用属性介绍 属性名 默认值 属性说明 spark.yarn.am.memory 512m 在客户端模式(client mode)下,yarn应用master使用的内存数。在集群模式(cluster mode)下,使用spark.driver.memory代替。 spark.driver.cores 1 在集群模式(cluster mo转载 2017-12-01 17:02:58 · 2058 阅读 · 0 评论 -
Spark 编程指南(二)
引入 SparkSpark 1.2.0 使用 Scala 2.10 写应用程序,你需要使用一个兼容的 Scala 版本(例如:2.10.X)。写 Spark 应用程序时,你需要添加 Spark 的 Maven 依赖,Spark 可以通过 Maven 中心仓库来获得:groupId = org.apache.sparkartifactId = spark-core_2.10version = 1.转载 2017-10-26 17:12:25 · 1140 阅读 · 1 评论 -
Spark 编程指南(一)
使用 Spark Shell基础Spark 的 shell 作为一个强大的交互式数据分析工具,提供了一个简单的方式来学习 API。它可以使用 Scala(在 Java 虚拟机上运行现有的 Java 库的一个很好方式) 或 Python。在 Spark 目录里使用下面的方式开始运行:./bin/spark-shellSpark 最主要的抽象是叫Resilient Distributed Dataset转载 2017-10-26 17:08:35 · 585 阅读 · 1 评论 -
Spark编程
//parallelize演示val num=sc.parallelize(1 to 10)val doublenum = num.map(_*2)val threenum = doublenum.filter(_ % 3 == 0)threenum.collectthreenum.toDebugStringval num1=sc.parallelize(1 to 10,6)val do转载 2017-10-11 21:17:26 · 591 阅读 · 1 评论 -
spark调优(七)【Spark性能优化指南——高级篇】
1 数据倾斜调优1.1 调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。2.2 数据倾斜发生时的现象绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个t转载 2017-12-02 23:23:47 · 800 阅读 · 1 评论