Spark
奋斗吧_攻城狮
JUST DO IT!
展开
-
Spark处理远程mongodb数据记录
原文连接:http://blog.csdn.net/oMrApollo/article/details/69566846 错误原因分析 报错如下: Exception in thread "main" java.io.IOException: com.mongodb.hadoop.splitter.SplitFailedException: Unable to calculate转载 2017-05-11 16:56:46 · 805 阅读 · 0 评论 -
maven编译spark 源码
基于Maven的构建是Apache Spark的参考构建。使用Maven构建Spark需要Maven 3.3.9或更高版本和Java 7。请注意,对于Java 7的支持已从Spark 2.0.0中弃用,可能会在Spark 2.2.0中删除。 设置Maven内存使用: 您需要通过MAVEN_OPTS配置Maven的内存使用量,官方推荐配置如下: export MAVEN_OPTS=原创 2017-05-12 17:10:42 · 2352 阅读 · 0 评论 -
Spark源码的编译过程详细解读(各版本)(博主推荐)
说在前面的话 重新试多几次。编译过程中会出现下载某个包的时间太久,这是由于连接网站的过程中会出现假死,按ctrl+c,重新运行编译命令。 如果出现缺少了某个文件的情况,则要先清理maven(使用命令 mvn clean) 再重新编译。 Spark源码编译的3大方式 1、Maven编译 2、SBT编译 (暂时没) 3、打包编译make-dis转载 2017-05-12 17:28:49 · 3122 阅读 · 1 评论 -
Hadoop2.6.4伪分布式环境及Spark、Intellij IDEA安装
环境信息及软件准备 系统信息:Linux promote 4.1.12-1-default #1 SMP PREEMPT Thu Oct 29 06:43:42 UTC 2015 (e24bad1) x86_64 x86_64 x86_64 GNU/Linux需要的软件:jdk-8u101-linux-x64.rpm scala-2.11.8.rpm hadoop-2.6.4.tar.gz spa原创 2017-05-10 15:03:31 · 940 阅读 · 0 评论 -
Hive on Spark安装配置详解(都是坑啊)
Hive on Spark安装配置详解(都是坑啊) 个人主页:http://www.linbingdong.com 简书地址:http://www.jianshu.com/p/a7f75b868568 简介 本文主要记录如何安装配置Hive on Spark,在执行以下步骤之前,请先确保已经安装Hadoop集群,Hive,MySQL,JDK,Scala,具体安装步骤不再转载 2017-08-09 17:33:13 · 1111 阅读 · 0 评论 -
Spark API 之 map、mapPartitions
map(function) map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。 举例: val a = sc.parallelize(1 to 9, 3) val b = a.map(x => x*2)//x => x*2是一个函数,x是传入参数即RDD的每个元素,x*2是返回值 a.collect //结转载 2017-08-30 11:40:13 · 454 阅读 · 0 评论 -
CentOS7.3下安装Cloudera Manager5.11.1
概述最近公司需要研究大数据方向的内容,经初步讨论,决定使用CDH版本 的Hadoop,使用Cloudera生态下的Cloudera Manager平台。CDH(Cloudera’s Distribution, including Apache Hadoop),是hadoop分支中的一种,由Cloudera 维护,基于稳定版本的Apache hadoop构建,并继承了许多补丁,可以直接用于原创 2017-08-25 12:06:54 · 845 阅读 · 0 评论