spark
archer.wu
当你的才华还撑不起你的野心的时候,就应该静下心来学习;当你的能力还驾驭不了你的目标时,就应该沉下心来,历练;梦想,不是浮躁,而是沉淀和积累,只有拼出来的美丽,没有等出来的辉煌,机会永远是留给最渴望的那个人,学会与内心深处的你对话,问问自己,想要怎样的人生,静心学习,耐心沉淀,送给自己,共勉。
展开
-
spark2.0.2测试spark-shell
spark2.0.2测试spark-shell上一篇文章介绍的是如何进行spark环境的搭建以及启动和关闭spark。本篇文章讲述的是如何在spark上利用spark-shell进行简单的测试。下面上货:首先看截图:1、首先进入到命令行模式:/home/spark/bin/spark-shell然后就能看见spark的图标了。2、原创 2016-12-19 00:27:04 · 2828 阅读 · 0 评论 -
spark1.6学习(三)——spark-submit
参考: http://spark.apache.org/docs/1.6.0/submitting-applications.html#master-urls这里详细介绍了一下spark-submit的参数使用和功能,需要看一下。这里遇到问题,当换成yarn-client方式运行的时候会一直出现提示:18/10/27 02:06:50 INFO yarn.Client: Applica...原创 2018-11-28 00:10:59 · 677 阅读 · 0 评论 -
spark1.6学习(二)——独立的python程序运行pyspark
本篇文章主要介绍如何使用独立的python程序运行pyspark。一般,我们在测试的时候可以使用pyspark进行简单的交互,但是在线上具体使用的程序,我们需要使用一个完整的pyspark程序的。主要参考:http://spark.apache.org/docs/1.6.0/quick-start.html好,下面上货。 首先是完整的程序,从hdfs中读取文件并且缓存下来,同时...原创 2018-11-28 00:08:37 · 2405 阅读 · 0 评论 -
spark1.6学习(一)——shell端简单使用demo
本文主要介绍spark的基本操作,以shell端的操作为主,介绍通过pyspark在shell端操作时需要注意的一些点。主要参考:http://spark.apache.org/docs/1.6.0/quick-start.html1、首先创建文件aa:bb:cc:ddee:ff:gg:hhii:kk:ll:mmnn:zz 2、进入pyspark的shell命令行(...原创 2018-11-28 00:04:52 · 1007 阅读 · 0 评论 -
spark1.6学习(四)——计算pv和uv的例子
本文主要介绍如何通过spark进行pv和uv的计算。一般我们经常会计算pv和uv,那么我们计算pv和uv的时候是不是性能最优的呢? 好,我们开始看例子:首先看一下数据:{"flag":"sendTemplateMessage","actionType":"success","from":"sendTemplateMessage","openId":&q原创 2018-11-29 01:56:39 · 2222 阅读 · 0 评论 -
spark1.6学习(三)——spark-submit问题INFO yarn.Client: Application report for application_1540605321820_0009
spark-submit 当换成yarn-client方式运行的时候会一直出现提示:18/10/27 02:06:50 INFO yarn.Client: Application report for application_1540605321820_0009 (state: ACCEPTED)18/10/27 02:06:51 INFO yarn.Client: Application...原创 2018-11-28 22:37:04 · 6344 阅读 · 0 评论 -
spark2.0.2环境搭建(hadoop2.7.3)——启动关闭
spark2.0.2环境搭建(hadoop2.7.3)——启动关闭本文主要讲述spark如何在hadoop环境下搭建。阅读完本文之后,能够正常的启动关闭spark。配置前提:配置好hadoop(hdfs和yarn都能正常)。下面,上货。首先去spark的官网上下载1、下载完成后,解压到linux中tar -zxvf spark-2.0.2-b原创 2016-12-17 15:03:19 · 4239 阅读 · 0 评论 -
spark读取csv文件——scala
spark读取csv文件——scala下面介绍如何通过scala读取csv文件读取的过程是首先按照普通额文本文件进行读取,然后通过opencsv的jar包进行转换,通过对每行进行读取,生成string数组。好,下面上货。import java.io.StringReaderimport au.com.bytecode.opencsv.CSVReaderobject CC{原创 2017-01-08 23:00:09 · 19904 阅读 · 0 评论 -
spark生成json文件
spark生成json文件接上一篇文章:http://blog.csdn.net/wild46cat/article/details/54174695上一篇文章讲述了如何读取一个json文件,并且转换成对象。本篇文章介绍如何生成json文件。下面是代码:import org.json4s._import org.json4s.JsonDSL._import org.json4s原创 2017-01-08 21:59:08 · 7509 阅读 · 2 评论 -
spark 读取json文件并分析
spark 读取json文件并分析本文主要介绍如何通过读取json文件到spark中然后进行分析。本文阅读前提:1、能够正常的跑起来spark2、有一定的scala语言知识3、了解json4s的基本功能和用法(http://blog.csdn.net/wild46cat/article/details/54171973和http://blog.csdn.net/wild46ca原创 2017-01-07 15:39:56 · 22585 阅读 · 3 评论 -
spark 存储json数据遇到问题——json4s使用(二)
spark 存储json数据遇到问题——json4s使用(二)接续上一篇文章,现在介绍一下使用json4s进行json转换成对象的方法。好,下面上货:import org.json4s._import org.json4s.JsonDSL._import org.json4s.jackson.JsonMethods._import org.json4s.jackson.Seria原创 2017-01-07 11:39:39 · 4272 阅读 · 0 评论 -
spark 存储json数据遇到问题——json4s使用(一)
spark 存储json数据遇到问题——json4s使用(一)在进行spark的学习过程中遇到了这样的问题。1、《O'REILLY Learning Spark》的书中说道能够使用spark进行json 的读写,但是给出的例子使用的json转换的jar包是jackson的,还需要再次进行引入。2、能不能找到一个spark内部已经有的基于scala的json处理的jar包。在原创 2017-01-07 11:30:24 · 21291 阅读 · 2 评论 -
spark pairRDD基本操作(三)——附带wordcount程序
spark pairRDD基本操作(三)——附带wordcount程序由于pairRDD也是RDD,或者说是RDD的子类,所以pairRDD也有RDD的功能,下面是一个综合的例子,首先使用了filtermap,然后是一个简单的mapreduce程序,最后是一个简单的wordcount小程序。本文主要参考书籍《O Reilly Learning spark》好,下面上货。val a原创 2017-01-06 11:50:07 · 1244 阅读 · 0 评论 -
spark——pairRDD的简单操作(二)
spark——pairRDD的简单操作(二)下面介绍两个pariRDD之间的操作:首先看书中的截图:下面是我上述例子的程序:val a = sc.parallelize(Array((1,2),(3,4),(3,6)))a.collect().foreach(x => print(x + " "))println(" ")val b = sc.parallel原创 2017-01-06 09:48:48 · 1138 阅读 · 0 评论 -
spark——pairRDD的简单操作(一)
spark——pairRDD的简单操作最近在学习pairRDD的时候发现,如果在程序中通过scala编写的程序,打成jar包之后,再运行总是报错,查了很多资料,还是没有解决,正常的RDD能够使用,但是不能使用map函数,一旦使用map函数的时候就会报错。所以,在进行学习pairRDD的时候还是使用的spark-shell的方式。好,下面上货,首先是书中(《OReilly Learnin原创 2017-01-06 09:30:42 · 3008 阅读 · 0 评论 -
spark运行简单的demo程序
spark运行简单的demo程序使用spark可以直接在命令行中启动spark-shell,然后在spark-shell中使用scala进行数据的处理。现在要介绍的是使用ide进行处理程序的编写。前提:1、已经安装好spark能够运行起来。2、了解基本的scala语法好,下面上货。1、首先用maven创建一个简单的quickstart程序2、在app目录下创建创原创 2017-01-04 17:30:24 · 12723 阅读 · 0 评论 -
spark简单使用——union intersection subtract cartesian
spark简单使用——union intersection subtract cartesian本文主要参考:OReilly Learning Spark首先看一下书中的说明:下面是我在sprark中进行操作的截图:原创 2017-01-03 14:17:49 · 1080 阅读 · 0 评论 -
spark简单操作——map flatmap filter distinct
spark简单操作——map flatmap filter distinct本文主要参考:OReilly Learning Spark首先你看一下书中的记载:下面是我在spark中进行上述操作的结果:原创 2017-01-03 14:08:11 · 2760 阅读 · 0 评论 -
spark学习(五)——分区数据
spark在处理的数据在内部是分partition的。除非是在本地新建的list数组才需要使用parallelize。保存在hdfs中的文件,在使用spark处理的时候是默认分partition的。我们可以使用getNumPartitions()获取当前rdd的partition的信息。通过glom()函数能够获取到分partition的rdd信息我们在处理数据的一般使用的map函...原创 2018-12-01 10:12:34 · 2074 阅读 · 0 评论