Spark
余建新-18588497759
这个作者很懒,什么都没留下…
展开
-
Spark 使用
Spark原创 2022-11-05 17:49:01 · 424 阅读 · 0 评论 -
Spark SQL 记录
-- Spark SQLSELECT * FROM dp_fk_tmp.t_aaronyu_test_0215 LIMIT 11;SELECT IF(Fdata IS NULL OR Fdata = '', (SELECT Fdata FROM dp_fk_tmp.t_aaronyu_test_0215 WHERE Fdata IS NOT NULL AND length(Fdata) >= 1 LIMIT 1), Fdata) result FROM dp_fk_tmp.t_aaronyu_.原创 2022-02-16 20:35:31 · 1036 阅读 · 0 评论 -
Spark记录
#Spark三种部署方式1、Standalone模式2、YARN模式3、High Availability如果Spark的部署方式选择Standalone,一个采用Master/Slaves的典型架构,那么Master是有SPOF(单点故障,Single Point of Failure)。Spark可以选用ZooKeeper来实现HA。Spark采用的是Zookeep原创 2016-03-25 15:49:37 · 802 阅读 · 0 评论 -
Scala闭包
原创 2016-03-12 12:21:32 · 356 阅读 · 0 评论 -
Spark技术栈
参考urlhttp://www.infoq.com/cn/news/2016/01/spark-streaming-what-is-it-and-w原创 2016-02-22 13:13:01 · 2226 阅读 · 0 评论 -
交互式分析系统
原创 2016-02-20 20:00:37 · 1308 阅读 · 0 评论 -
Spark
原创 2016-03-17 17:32:11 · 447 阅读 · 0 评论 -
Spark R
参考urlhttp://www.cnblogs.com/payton/p/4227770.html原创 2015-11-27 14:53:58 · 723 阅读 · 0 评论 -
Windows下配置IDEA Scala开发环境
一、安装Scala下载scala-2.9.3.zip,并配置环境变量二、配置IDEA下载Scala插件原创 2014-12-10 19:36:55 · 1287 阅读 · 0 评论 -
Spark SQL-1-CLI方式
1.1、Spark SQL CLI配置 Spark SQL访问Hive,Hive服务器必须先启动Hive Metastore(Spark会读取$SPARK_HOME/conf/hive-site.xml)Spark SQL is designed to be compatible with the Hive Metastore, SerDes and UDFs. Currently Spa原创 2015-02-16 01:17:59 · 1948 阅读 · 0 评论 -
编译官网spark-1.1.0.tgz至spark-1.1.0-bin-2.0.6-alpha.tgz
编译命令mvn -Pyarn-alpha -Phadoop-2.0.6-alpha -Phive -Phive-thriftserver -Dhadoop.version=2.0.6-alpha -DskipTests clean package./make-distribution.sh --tgz --name 2.0.6-alpha -Pyarn-alpha -Phadoop-2原创 2015-01-15 19:51:48 · 1212 阅读 · 0 评论 -
Spark-问题总结
一、问题背景执行最后一行时出错: ./spark-shell MASTER=spark://bigdata0:7077scala> val file = sc.textFile("hdfs://bigdata1:9000/wordcount/wc_in/test1.txt")scala> val count = file.flatMap(line => line.split原创 2015-05-27 16:53:28 · 788 阅读 · 0 评论 -
Spark SQL-2-Scala代码中
进入Spark SQL:spark-shell MASTER=spark://bigdata0:7077 --executor-memory 3gval sqlContext=new org.apache.spark.sql.SQLContext(sc)import sqlContext.createSchemaRDD1、测试case class Person(原创 2015-02-16 13:34:59 · 1555 阅读 · 0 评论 -
Spark Streaming-1-Flume-conf总结-1-http_self_to_avro_spark streaming
需求:Flume接收HTTP请求,数据流向Spark Streaming。Spark Streaming接收Flume数据:bin/run-example org.apache.spark.examples.streaming.FlumeEventCount bigdata3 6667运行后会在bigdata3:6667上开启一个Avro Source Server原创 2015-01-14 14:38:40 · 1274 阅读 · 0 评论 -
Spark streaming-1
1、NetworkWordCount1.1、开启发送数据的服务器cd /home/jianxin/spark java -jar LoggerSimulation.jar 9999 10java -jar NetworkWordCount.jar localhost 9999netstat -nalp | grep 9999lsof -i:99991.2、原创 2015-02-16 13:50:58 · 1550 阅读 · 0 评论 -
Spark-wordcount
1、val rdd = sc.textFile("/home/jianxin/spark/sourceDir/wordcount.txt")rdd.foreach(println)hello youhello me2、rdd.map(_.split(' ')).firstres74: Array[String] = Array(hello, "", "", yo原创 2015-02-25 02:17:57 · 667 阅读 · 0 评论 -
Spark安装2
一、环境说明scala-2.9.3spark-0.8.1-incubating-bin-hadoop2二、安装配置2.1、mkdir -p /opt/sparktar -zxvf scala-2.9.3.tgzln -s scala-2.9.3 scala修改/etc/profileexport SCALA_HOME=/opt/spark/scala原创 2014-12-10 15:56:50 · 1640 阅读 · 0 评论 -
高效搭建Spark完全分布式集群
本文详细总结Spark分布式集群的安装步骤,帮助想要学习Spark的技术爱好者快速搭建Spark的学习研究环境。原创 2014-07-14 13:35:22 · 9332 阅读 · 0 评论