![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 91
fcyh
A man must be on his own
展开
-
Spark MLlib回归算法------线性回归、逻辑回归、SVM和ALS
Spark MLlib回归算法------线性回归、逻辑回归、SVM和ALS 1、线性回归:(1)模型的建立:回归正则化方法(Lasso,Ridge和ElasticNet)在高维和数据集变量之间多重共线性情况下运行良好。 数学上,ElasticNet被定义为L1和L2正则化项的凸组合:通过适当设置α,ElasticNet包含L1和L2正则化作为特殊情况。例如,如果用参数α设置为1来原创 2017-07-08 10:02:38 · 1264 阅读 · 0 评论 -
Spark的核心RDD(Resilient Distributed Datasets弹性分布式数据集)
Spark的核心RDD(Resilient Distributed Datasets弹性分布式数据集)铺垫在hadoop中一个独立的计算,例如在一个迭代过程中,除可复制的文件系统(HDFS)外没有提供其他存储的概念,这就导致在网络上进行数据复制而增加了大量的消耗,而对于两个的MapReduce作业之间数据共享只有一个办法,就是将其写到一个稳定的外部存储系统,如分原创 2017-10-17 14:45:03 · 1018 阅读 · 0 评论 -
Hadoop与Spark之间的比较
Hadoop与Spark之间的比较Hadoop框架的主要模块包括如下:Hadoop CommonHadoop分布式文件系统(HDFS)Hadoop YARNHadoop MapReduce虽然上述四个模块构成了Hadoop的核心,不过还有其他几个模块。这些模块包括:Ambari、Avro、Cassandra、Hive、 Pig、Oozie、Flume和Sqoop原创 2017-10-17 14:38:21 · 14472 阅读 · 0 评论 -
Spark内存管理之钨丝计划
Spark内存管理之钨丝计划1. 钨丝计划的产生的原因 2. 钨丝计划内幕详解 一:“钨丝计划”产生的本质原因 1, Spark作为一个一体化多元化的(大)数据处理通用平台,性能一直是其根本性的追求之一,Spark基于内存迭代(部分基于磁盘迭代)的模型极大的满足了人们对分布式系统处理性能的渴望,但是有Spark是采用Scala+ Java语言编写的所以运行在了J原创 2017-10-13 18:02:38 · 564 阅读 · 0 评论 -
Spark算子---实战应用
Spark算子实战应用 数据集 :http://grouplens.org/datasets/movielens/ MovieLens 1M Datase相关数据文件 :users.dat ---UserID::Gender::Age::Occupation::Zip-codemovies.dat --- MovieID::Title::Genresratings.dat ---Use原创 2017-07-08 10:02:45 · 387 阅读 · 0 评论 -
SparkSQL---实战应用
SparkSQL---实战应用 数据集 :http://grouplens.org/datasets/movielens/ MovieLens 1M Datase相关数据文件 :users.dat ---UserID::Gender::Age::Occupation::Zip-codemovies.dat --- MovieID::Title::Genresratings.dat --原创 2017-07-08 10:02:48 · 371 阅读 · 0 评论 -
Spark SQL讲解
Spark SQL讲解Spark SQL是支持在Spark中使用Sql、HiveSql、Scala中的关系型查询表达式。它的核心组件是一个新增的RDD类型SchemaRDD,它把行对象用一个Schema来描述行里面的所有列的数据类型,它就像是关系型数据库里面的一张表。它可以从原有的RDD创建,也可以是Parquet文件,最重要的是它可以支持用HiveQL从hive里面读取数据。原创 2017-10-13 11:41:30 · 501 阅读 · 0 评论 -
Spark算子总结(带案例)
Spark算子总结(带案例)spark算子大致上可分三大类算子: 1、Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Value型的数据。 2、Key-Value数据类型的Transformation算子,这种变换不触发提交作业,针对处理的数据项是Key-Value型的数据。 3、Action算子,这原创 2017-10-11 11:21:59 · 650 阅读 · 0 评论 -
Lifetime-Based Memory Management for Distributed Data Processing Systems
Lifetime-Based Memory Management for Distributed Data Processing Systems (Deca:Decompose and Analyze) 一、分布式数据处理系统像Spark、FLink中的优缺点:1、优点:in-memory中可以通过缓存中间数据以及在shuffle b原创 2017-10-19 19:47:15 · 482 阅读 · 0 评论 -
Spark Shuffle原理解析
Spark Shuffle原理解析 一:到底什么是Shuffle? Shuffle中文翻译为“洗牌”,需要Shuffle的关键性原因是某种具有共同特征的数据需要最终汇聚到一个计算节点上进行计算。 二:Shuffle可能面临的问题?运行Task的时候才会产生Shuffle(Shuffle已经融化在Spark的算子中了)。1, 数据量非常原创 2017-10-11 14:12:14 · 712 阅读 · 0 评论 -
Spark 介绍(基于内存计算的大数据并行计算框架)
Spark 介绍(基于内存计算的大数据并行计算框架) Hadoop与Spark行业广泛使用Hadoop来分析他们的数据集。原因是Hadoop框架基于一个简单的编程模型(MapReduce),它支持可扩展,灵活,容错和成本有效的计算解决方案。这里,主要关注的是在处理大型数据集时在查询之间的等待时间和运行程序的等待时间方面保持速度。Spark由Apache Soft原创 2017-09-29 16:19:37 · 6095 阅读 · 0 评论 -
Spark内存管理机制
Spark内存管理机制Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。在执行 Spark 的应用程序时,Spark 集群会启动 Driver 和 Executor 两种 JVM 进程,前者为主控进程,负责创建 Spark 上下文,提交原创 2017-09-12 16:02:58 · 972 阅读 · 0 评论 -
Shuffle过程
Shuffle过程在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现,也实现了shuffle的逻辑。 ShuffleShuffle是MapReduce框架中的一个特定的phase,介于M原创 2017-09-13 10:20:08 · 537 阅读 · 0 评论 -
Spark编程模型(RDD编程模型)
Spark编程模型(RDD编程模型) 下图给出了rdd 编程模型,并将下例中用 到的四个算子映射到四种算子类型。spark 程序工作在两个空间中:spark rdd空间和 scala原生数据空间。在原生数据空间里, 数据表现为标量(即scala基本类型,用橘 色小方块表示)、集合类型(蓝色虚线 框) 和持久存储(红色圆柱)。原创 2017-07-08 10:02:18 · 503 阅读 · 0 评论 -
Spark Streaming中的操作函数讲解
Spark Streaming中的操作函数讲解 根据根据Spark官方文档中的描述,在Spark Streaming应用中,一个DStream对象可以调用多种操作,主要分为以下几类TransformationsWindow OperationsJoin OperationsOutput Operations一、Transformations1、map(func) map操作原创 2017-07-08 10:02:23 · 422 阅读 · 0 评论 -
Spark SQL中出现 CROSS JOIN 问题解决
Spark SQL中出现 CROSS JOIN 问题解决1、问题显示如下所示: Use the CROSS JOIN syntax to allow cartesian products between these relation 2、原因: Spark 2.x版本中默认不支持笛卡尔积操作3、解决方案: 通过参数spark.sq...原创 2019-08-09 12:50:39 · 5189 阅读 · 0 评论