Spark
Marho11
这个作者很懒,什么都没留下…
展开
-
快速开始Spark
基础Spark shell提供一个交互式的数据分析工具,可以用来学习API。 启动python的shell:./bin/pysparkSpark的最主要抽象是RDD(Resilient Distributed Dataset),数据在spark内部用RDD表示。可以使用Hadoop InputFormats(如HDFS)或其他RDDs来创建RDDs。 启动Spark shell后,会自动创建一个翻译 2016-09-19 13:08:39 · 512 阅读 · 0 评论 -
pyspark命令行打印日志问题
在使用spark-submit运行工程jar包时常常会出现一下两个问题: 1.在程序中手打的log(如print(“***testRdd.count=”+testRdd.count())常常会因被下一个Job的执行日志覆盖掉而无法查看日志;,或执行日志过多,不好查看print的内容。 2.一旦命令窗口被关闭或者电脑因断电等原因异常关闭,程序便终止运行。 其中,第一个问题可以通过将运行日志转载 2016-09-22 10:31:44 · 7118 阅读 · 0 评论 -
Spark SQL,DataFrames and DataSets Guide官方文档翻译
Spark SQL是一个结构化数据处理的Spark模块。DataSets和DataFrames一个DataSet是一个分布式数据集合,类似于RDDs。可以构建于JVM对象,并用函数式transformation(map,flatMap,filter等)。Python没有DataSet API的支持。一个DataFrame就是一个以命名列进行整合的DataSet。类似于关系型数据库中的表翻译 2016-09-07 20:01:31 · 7237 阅读 · 0 评论 -
Spark和Anaconda结合
安装Anaconda后,编辑~/.bashrc或者~/.bash_profile文件:export PATH=/yourpath/anaconda2/bin:$PATH然后使用ipython启动spark shellPYSPARK_DRIVER_PYTHON=ipython $SPARK_HOME/bin/pyspark就可以在pyspark shell中使用Anaconda中的python工具包了原创 2016-10-20 13:44:15 · 4789 阅读 · 0 评论 -
Spark伪分布安装(依赖Hadoop)
一、伪分布安装Spark安装环境:Ubuntu 14.04 LTS 64位+Hadoop2.7.2+Spark2.0.0+jdk1.7.0_761、安装jdk1.7(1)下载jdk-7u76-linux-x64.tar.gz;(2)解压jdk-7u76-linux-x64.tar.gz,并将其移动到/opt/java/jdk路径下(自建);命令:tar -zxvf jdk-原创 2016-08-24 09:19:56 · 6781 阅读 · 1 评论 -
Window环境下使用IntelliJ IDEA调试Spark Application
最近在玩spark,每次敲完代码,就需要打成jar包上传服务器进行测试,所以比较繁琐,准备在window环境下使用IntelliJ IDEA搭建Spark调试环境。在window环境下先安装Spark环境:安装jdk,建议1.8+,配置java环境变量。下载Hadoop,并安装,配置环境变量,修改配置文件。下载Spark,并解压缩至本地,我的版本是spark-2.0.1-bin-hadoop2原创 2016-11-03 17:33:44 · 4141 阅读 · 0 评论 -
Spark中的aggregate和aggregateByKey的区别及疑惑
aggregate将初始值和第一个分区中的第一个元素传递给seq函数进行计算,然后将计算结果和第二个元素传递给seq函数,直到计算到最后一个值。第二个分区中也是同理操作。最后将所有分区的结果经过combine函数进行计算(先将前两个结果进行计算,将返回结果和下一个结果传给combine函数,以此类推),并返回最终结果。>>> data = sc.parallelize((1,2,3,4,5,6),2原创 2016-09-21 16:31:20 · 7819 阅读 · 1 评论