spark与hadoop
星之擎
且行且珍惜
展开
-
在hadoop环境下用spark跑wordcount(没有安装scala)
在spark和hdfs上运行wordcount: 一、单机单节点安装spark: 1、解压 2、配置conf,cp,, spark-env.sh,写路径,sbin跑动 [root@localhost spark-1.6.1-bin-hadoop1]# cd sbin [root@localhost sbin]# ls slaves.sh st原创 2016-04-29 23:20:17 · 2176 阅读 · 2 评论 -
spark wordcount
1、这是idea下+spark包的源码 package main.scala import org.apache.spark.{SparkConf,SparkContext} /** * Created by root on 1/12/17. */ object WordCount { val conf =new SparkConf() val sc = new Sp原创 2017-01-12 21:08:55 · 1499 阅读 · 0 评论 -
初试Spark之K-Means聚类算法实现
0.2 0.28 0.32 0.39 0.42 0.5 0.61 0.68 0.72 0.76 1.8 1.88 1.98 2 2.02 2.1 2.24 2.32 2.38 2.4 3.4 3.52 3.58 3.6 3.65 3.72 3.77 3.88 3.91 3.94 3.98 4 package kmea转载 2017-02-18 11:42:14 · 898 阅读 · 0 评论 -
hadoop之二维数据之kmeans深入
O、一维数据的kmeans,很简单 但二维数据+分区并行呢? 1、怎么初始化中心点? 2、怎么计算中心距离,跟一位一样吗?毕竟只是部分数据在计算。 一、先讲讲一维数据的kmeans吧: txt string[] 初始化中心点,随机选取下标, string0[] txt0 第k次迭代中,计算样本到c个中心的距离,将样本归到其所应在的类 txt txt0 在分原创 2017-03-14 19:58:04 · 562 阅读 · 0 评论 -
could only be replicated to 0 nodes, instead of 1
[xi@master Desktop]$ hadoop dfs -put 3.txt input 17/03/23 21:21:37 WARN hdfs.DFSClient: DataStreamer Exception: org.apache.hadoop.ipc.RemoteException: java.io.IOException: File /user/xi/input/3.txt c原创 2018-01-21 21:01:19 · 284 阅读 · 0 评论 -
Spark RDD 创建
Spark RDD 创建、parallelize、makeRDD、textFile、hadoopFile、hadoopRDD、newAPIHadoopFile、newAPIHadoopRDD 从集合创建RDD parallelize def parallelize[T](seq: Seq[T], numSlices: Int = defaultParallelism)(impli转载 2017-04-16 16:33:10 · 447 阅读 · 0 评论