spark
文章平均质量分 80
zhuguorong11
这个作者很懒,什么都没留下…
展开
-
Spark算子使用示例
1. 算子分类从大方向来说,Spark 算子大致可以分为以下两类Transformation:操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。Action:会触发 Spark 提交作业(Job),并将数据输出 Spark系统。从小方向来说,Spark 算子大致可以分为以下三类:转载 2016-11-23 23:27:19 · 986 阅读 · 0 评论 -
Spark常见问题解决办法
以下是在学习和使用spark过程中遇到的一些问题,记录下来。1、首先来说说spark任务运行完后查错最常用的一个命令,那就是把任务运行日志down下来。 程序存在错误,将日志down下来查看具体原因!down日志命令:yarn logs -applicationId app_id2、Spark性能优化的9大问题及其解决方案Spark程序优化所需要关注的几个关键点——最主要的转载 2017-02-27 15:06:56 · 719 阅读 · 0 评论 -
Spark来监控hdfs里的文件,并用wordcount计算
import org.apache.spark._import org.apache.spark.streaming._object Stream { def main(args: Array[String]) { val sparkConf = new SparkConf().setMaster("spark://10.149.252.106:7077").setAppName(原创 2017-03-13 18:34:01 · 1190 阅读 · 1 评论 -
SparkSQL 入门操作
1.前提 启动Hadoop,Spark 2.进入saprk-shellbin/spark-shell --master spark://c1:7077 --executor-memory 2g113.SQL操作文本文件customers.txt中的内容如下:100, John Smith, Austin, TX, 78727200, Joe Johnson, Da转载 2017-03-13 20:28:01 · 356 阅读 · 0 评论 -
Spark构建推荐系统引擎--来源于Spark机器学习
import org.apache.spark.mllib.evaluation.RegressionMetricsimport org.apache.spark.mllib.recommendation.{ALS, Rating}import org.apache.spark.{SparkConf, SparkContext}import org.jblas.DoubleMatrix/*原创 2017-03-14 11:41:27 · 572 阅读 · 2 评论 -
Spark分类模型--来源Spark机器学习
import org.apache.spark.mllib.classification.{ClassificationModel, LogisticRegressionWithSGD, NaiveBayes, SVMWithSGD}import org.apache.spark.mllib.evaluation.BinaryClassificationMetricsimport org.ap原创 2017-03-14 23:24:48 · 794 阅读 · 0 评论 -
Spark聚类模型K-Means----来源Spark机器学习
import breeze.linalg.DenseVectorimport breeze.numerics.powimport org.apache.spark.mllib.clustering.KMeansimport org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.linalg.distribute原创 2017-03-14 23:25:46 · 1108 阅读 · 0 评论