Spark
IT菜籽U
当你发现自己的才华撑不起野心时,就请安静下来学习吧
展开
-
spark知识框架
第1章 Spark数据分析导论 11.1 Spark是什么 11.2 一个大一统的软件栈 21.2.1 Spark Core 21.2.2 Spark SQL 31.2.3 Spark Streaming 31.2.4 MLlib 31.2.5 GraphX 31.2.6 集群管理器 41.3 Spark的用户和用途 41.3.1 数据科转载 2016-08-23 11:40:47 · 1110 阅读 · 0 评论 -
Spark开发环境配置(windows/Intellij IDEA 篇)
Spark开发环境配置(windows/Intellij IDEA 篇)Intellij IDEA是一个蛮不错的IDE,在java/scala/Groovy领域深得人心。笔者之前使用的是Eclipse那一套开发环境,虽然也不错,但忍不住好奇心的驱使,折腾了一下IDEA,发现写起Spark程序来,“哎呦,不错哟!”,故总结一下在windows系统中的配置过程(在mac下的配置其实更简单一些)转载 2016-09-14 15:42:12 · 2418 阅读 · 0 评论 -
spark流式读取hdfs中数据
#spark-shellscala>spark:一:流式读取数据 即是不间断实时访问读取数据import org.apache.spark._import org.apache.spark.streaming._import org.apache.spark.streaming.StreamingContext._ val ssc原创 2016-11-04 16:56:32 · 9677 阅读 · 5 评论 -
Spark Standalone如何通过start-all.sh启动集群
Spark Standalone如何通过start-all.sh启动集群1.start-all.sh脚本分析图1 start-all.sh部分内容我们可以从start-all.sh脚本源文件中看到它其实是start-master.sh和start-slaves.sh两个脚本的组合。 图2 start-master.sh部分内容转载 2016-11-16 08:38:42 · 1787 阅读 · 0 评论 -
修改spark或者hadoop master web ui端口
spark master web ui 端口8080被占用解决方法spark master web ui 默认端口为8080,当系统有其它程序也在使用该接口时,启动master时也不会报错,spark自己会改用其它端口,自动端口号加1,但为了可以控制到指定的端口,我们可以自行设置,修改方法: 1、cd SPARK_HOME/sbin 2、vi start转载 2016-11-15 17:11:19 · 11956 阅读 · 0 评论 -
spark学习网站--不错的资料
http://www.cnblogs.com/shishanyuan/p/4747793.html原创 2016-08-16 17:21:29 · 1298 阅读 · 0 评论 -
spark性能优化:数据倾斜调优
调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象1、绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个tas转载 2017-04-01 17:34:09 · 510 阅读 · 0 评论