Spark_yongjian_luo的博客-CSDN博客

Spark

关注

文章平均质量分 96

关注数：文章数：44 文章阅读量：33405 文章收藏量：15

作者: yongjian_luo

这个作者很懒，什么都没留下…

展开

<转>当MongoDB遇见Spark

适宜读者人群正在使用Mongodb的开发者传统Spark生态系统和 MongoDB在Spark生态的角色传统Spark生态系统Spark生态系统那么Mongodb作为一个database, 可以担任什么样的角色呢? 就是数据存储这部分, 也就是图中的黑色圈圈HDFS的部分, 如下图用MongoDB替换HDFS后的Spark生态系统

转载 2017-03-27 10:25:57 · 1516 阅读 · 0 评论
<转>使用spark ml pipeline进行机器学习

一、关于spark ml pipeline与机器学习一个典型的机器学习构建包含若干个过程1、源数据ETL2、数据预处理3、特征选取4、模型训练与验证以上四个步骤可以抽象为一个包括多个步骤的流水线式工作，从数据收集开始至输出我们需要的最终结果。因此，对以上多个步骤、进行抽象建模，简化为流水线式工作流程则存在着可行性，对利用spark进行机器学习的用户来

转载 2017-01-17 16:40:57 · 424 阅读 · 0 评论
<转>Spark MLlib 数据预处理－特征变换（二）

作者：刘玲源链接：https://zhuanlan.zhihu.com/p/24069545来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。算法介绍：VectorIndexer解决数据集中的类别特征Vector。它可以自动识别哪些特征是类别型的，并且将原始值转换为类别指标。它的处理流程如下：1.获得一个向量类型的输入以及maxCategor

转载 2017-01-12 14:19:59 · 2388 阅读 · 0 评论
<转>关于SparkMLlib的基础数据结构Spark-MLlib-Basics

此部分主要关于MLlib的基础数据结构1、本地向量MLlib的本地向量主要分为两种，DenseVector和SparseVector，顾名思义，前者是用来保存稠密向量，后者是用来保存稀疏向量，其创建方式主要有一下三种（三种方式均创建了向量(1.0, 0.0, 2.0）：[plain] view plain copyimport o

转载 2017-01-11 12:06:14 · 288 阅读 · 0 评论
<转>Spark-Mllib 数据类型

一.本地向量　　有如下几个类: Vector(基类),DenseVector,SparseVector,Vectors(工厂方法,推荐用)工厂模式是：定义一个用于创建对象的接口，让子类决定实例化哪一个类，使一个类的实例化延迟到子类import org.apache.spark.mllib.linalg.{Vectors,Vector} # linalg is shor

转载 2017-01-11 11:50:25 · 319 阅读 · 0 评论
<转>Spark机器学习库（MLlib）指南

spark-1.6.1机器学习库（MLlib）指南MLlib是Spark的机器学习（ML）库。旨在简化机器学习的工程实践工作，并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成，包括分类、回归、聚类、协同过滤、降维等，同时还包括底层的优化原语和高层的管道API。MLllib目前分为两个代码包：spark.mllib 包含基于RDD的原始算法API。spark

转载 2017-01-11 11:42:41 · 902 阅读 · 0 评论
<转>Spark 学习笔记：MLlib基础

MLlib：Machine Learning Library。主要内容包括：数据类型统计工具summary statisticscorrelationsstratified samplinghypothesis testingrandom data generation 分类和回归线性模型（SVM，逻辑回归，线性回归）朴素贝叶斯决策树ense

转载 2017-01-11 11:41:52 · 308 阅读 · 0 评论
<转>关于SparkMLlib的基础数据结构Spark-MLlib-Basics

此部分主要关于MLlib的基础数据结构1、本地向量MLlib的本地向量主要分为两种，DenseVector和SparseVector，顾名思义，前者是用来保存稠密向量，后者是用来保存稀疏向量，其创建方式主要有一下三种（三种方式均创建了向量(1.0, 0.0, 2.0）：[plain] view plain copyimport o

转载 2017-01-11 11:23:13 · 275 阅读 · 0 评论
<转>spark下线性模型 spark.mllib

我还是参考官方的文档来写这个部分，顺便梳理下原理，给出对应代码及运行结果，一点也不复杂。数学公式许多的机器学习的算法实际上可以被写成凸优化的问题，比如说寻找凸函数f的极小值，它取决于权重向量ｗ，那么我们可以将优化目标函数写成：这里xi∈Rd是训练数据，yi∈R是它们对应的标签，线性方法可以表示成L(w;x,y)，有几类mllib中的分类和回归算法都可以归为这一类。

转载 2017-01-10 17:17:38 · 277 阅读 · 0 评论
<转>Spark中组件Mllib的学习26之逻辑回归-简单数据集，带预测

更多代码请见：https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之逻辑回归篇 1解释什么是逻辑回归？Logistic回归与多重线性回归实际上有很多相同之处，最大的区别就在于它们的因变量不同，其他的基本都差不多。正是因为如此，这两种回归可以归于同一个家族，即广义线性模型（generalizedlinear mode

转载 2017-01-10 14:33:32 · 376 阅读 · 0 评论
<转>Spark Mllib逻辑回归算法分析

原创文章，转载请注明：转载自http://www.cnblogs.com/tovin/p/3816289.html 本文以spark 1.0.0版本MLlib算法为准进行分析一、代码结构逻辑回归代码主要包含三个部分1、classfication：逻辑回归分类器2、optimization：优化方法，包含了随机梯度、LBFGS两种算法

转载 2017-01-12 17:56:31 · 873 阅读 · 0 评论
<转> Spark 线性代数库 Breeze API 详解

转载请标明出处：小帆的帆的专栏运算加，减，乘，除向量与向量加：+减：-乘：:*除：:/规则1:乘除前面，加冒号；单独的乘号和除号分别表示点积和线性求解规则2:累加效果，加等号import breeze.linalg.DenseVectorobject Test { def main(args: Array[String]) { va

转载 2017-01-12 18:01:18 · 625 阅读 · 0 评论
<转> 基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘

转载请注明：转载 from http://blog.csdn.net/u011239443/article/details/53735609 近期参加了CCF举办的“大数据精准营销中搜狗用户画像挖掘”竞赛，就那它来写了。本博文会在这几周不断的完善更新ing1. 选题背景与意义1.1 用户画像与精准营销 “用户画像”是近几年诞生的名词。很多营销项目或很多广告主，在打算

转载 2017-01-13 10:14:49 · 1409 阅读 · 0 评论
<转>SparkSQL – 从0到1认识Catalyst

最近想来，大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验，弱势在于分布式领域的高可用性、容错性、扩展性等，假以时日，让其经过一定的改造，比如引入Paxos、raft等，强化自己在分布式领域的能力，相信一定会在大数据系统中占有一席之地。相反，大数据相关技术优势在于其天生的扩展性、可用性、容错性等，但其SQL优化器经验却基本全部来自于传统

转载 2017-03-15 14:00:21 · 409 阅读 · 0 评论
<转>Apache Spark 内存管理详解

Spark 作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理，有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络，抛砖引玉，引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本，阅读本文需要读者有一定的 Spark 和 Java 基础，了解 RDD、Shuff

转载 2017-03-31 14:35:01 · 1178 阅读 · 2 评论
<转>Spark执行模式解析

摘要：本文主要讲了Spark几种不同的执行模式以及其原理一、执行模式提交脚本常见的语法：[plain] view plain copy ./bin/spark-submit \ --class --master \ --deploy-mode \ --conf = \ ... #

转载 2017-03-08 09:38:56 · 319 阅读 · 0 评论
<转>雅虎开源TensorflowOnSpark，Ubuntu配置安装TensorflowOnSpark

一、引言 Yahoo在2016年2月左右开源了基于Spark／Hadoop的分布式深度学习框架—CaffeOnSpark，CaffeOnSpark被设计成为一个Spark深度学习包，Spark MLlib支持各种非深度学习算法用于分类、回归、聚类、推荐等，但目前缺乏深度学习这一关键能力，而CaffeOnSpark旨在填补这一空白。CaffeOnSpark API支持dataframes，以

转载 2017-02-24 11:23:56 · 370 阅读 · 0 评论
<转>推荐系统中基于深度学习的混合协同过滤模型

近些年，深度学习在语音识别、图像处理、自然语言处理等领域都取得了很大的突破与成就。相对来说，深度学习在推荐系统领域的研究与应用还处于早期阶段。携程在深度学习与推荐系统结合的领域也进行了相关的研究与应用，并在国际人工智能顶级会议AAAI 2017上发表了相应的研究成果《A Hybrid Collaborative Filtering Model with Deep Structure for

转载 2017-01-24 15:14:08 · 1163 阅读 · 0 评论
<转>Spark Mllib逻辑回归算法分析

一、代码结构逻辑回归代码主要包含三个部分1 、 classfication ：逻辑回归分类器2 、 optimization ：优化方法，包含了随机梯度、LBFGS两种算法3 、 evaluation ：算法效果评估计算二、逻辑回归分类器1 、 LogisticRegressionModel 类(1) 根据训练数据集得到的weight

转载 2017-01-22 10:49:06 · 461 阅读 · 0 评论
<转>开源工作流--Azkaban与Oozie对比

功能二者都可以调度mapreduce,pig,java,脚本工作流任务二者都可以定时履行工作流任务工作流定义Azkaban使用Properties文件定义工作流Oozie使用XML文件定义工作流工作流传参Azkaban支持直接传参，例如${input}Oozie支持参数和EL表达式，例如${fs:dirSize(myInputDir)}定时履行A

转载 2017-02-20 15:41:10 · 953 阅读 · 0 评论
<转>【DataFrame】数据离散化重组

离散化的原始数据来自 Spark 源码包，离散化函数选用 spark ml 包中的 Bucketizer 方法。[java] view plain copypackage ethink import org.apache.spark.sql.SQLContext import org.apache.spark.SparkC

转载 2017-01-18 20:05:01 · 1741 阅读 · 0 评论
<转> 基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘

转载请注明：转载 from http://blog.csdn.net/u011239443/article/details/53735609 近期参加了CCF举办的“大数据精准营销中搜狗用户画像挖掘”竞赛，就那它来写了。本博文会在这几周不断的完善更新ing1. 选题背景与意义1.1 用户画像与精准营销 “用户画像”是近几年诞生的名词。很多营销项目或很多广告主，在打算

转载 2017-01-13 10:16:32 · 861 阅读 · 0 评论
<转>Spark 生态系统组件

Spark 生态系统以Spark Core 为核心，能够读取传统文件（如文本文件）、HDFS、Amazon S3、Alluxio 和NoSQL 等数据源，利用Standalone、YARN 和Mesos 等资源调度管理，完成应用程序分析与处理。这些应用程序来自Spark 的不同组件，如Spark Shell 或Spark Submit 交互式批处理方式、Spark Streaming 的实时流处理

转载 2017-01-04 11:15:57 · 1278 阅读 · 0 评论
<转>深入理解Spark RDD抽象模型和编写RDD函数

深入理解Spark RDD抽象模型和编写RDD函数Spark revolves around the concept of a resilient distributed dataset (RDD), which is an immutable , fault-tolerant , partitioned collection of elements that can be opera

转载 2016-12-27 10:34:26 · 681 阅读 · 0 评论
<转>Kafka+Spark Streaming+Redis实时计算整合实践

基于Spark通用计算平台，可以很好地扩展各种计算类型的应用，尤其是Spark提供了内建的计算库支持，像Spark Streaming、Spark SQL、MLlib、GraphX，这些内建库都提供了高级抽象，可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里，我们基于1.3.0版本的Spark搭建了计算平台，实现基于Spark Streaming的实时计算。我

转载 2016-09-20 16:50:00 · 1101 阅读 · 0 评论
<转>Spark Streaming：大规模流式数据处理的新贵

提到Spark Streaming，我们不得不说一下BDAS（Berkeley Data Analytics Stack），这个伯克利大学提出的关于数据分析的软件栈。从它的视角来看，目前的大数据处理可以分为如以下三个类型。复杂的批量数据处理（batch data processing），通常的时间跨度在数十分钟到数小时之间。基于历史数据的交互式查询（interactive query

转载 2016-09-20 16:19:07 · 282 阅读 · 0 评论
<转>Spark Streaming实时计算框架介绍

随着大数据的发展，人们对大数据的处理要求也越来越高，原有的批处理框架MapReduce适合离线计算，却无法满足实时性要求较高的业务，如实时推荐、用户行为分析等。 Spark Streaming是建立在Spark上的实时计算框架，通过它提供的丰富的API、基于内存的高速执行引擎，用户可以结合流式、批处理和交互试查询应用。本文将详细介绍Spark Streaming实时计算框架的原理与特点、适用场景。

转载 2016-09-20 15:19:55 · 304 阅读 · 0 评论
<转>Spark体系架构

最近看到一篇关于Spark架构的博文，作者是 Alexey Grishchenko。看过Alexey博文的同学应该都知道，他对Spark理解地非常深入，读完他的 “spark-architecture” 这篇博文，有种醍醐灌顶的感觉，从JVM内存分配到Spark集群的资源管理，步步深入，感触颇多。因此，在周末的业余时间里，将此文的核心内容译成中文，并在这里与大家分享。如在翻译过程中有文字上的表达纰

转载 2016-09-20 09:59:22 · 425 阅读 · 0 评论
spark之scala学习——11步走进scala<转>

scala和java或.NET都可以协同工作。Scala的主编译器，scalac，会生成在jvm上运行的class文件。然而，另一个编辑器则生成能在.NET CLR上运行的二进制文件。scala和java代码可以实现互操作；1. 下载、解压、环境变量；2. 进入shell：[plain] view plaincopyprint?

转载 2014-11-06 11:45:42 · 713 阅读 · 0 评论
Spark学习笔记-Streaming-1<转>

Spark Streaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是Spark Engine，也就是把Spark Streaming的输入数据按照batch size（如1秒）分成一段一段的数据（Discretized Stream），每一段数据都转换成Spark中的RDD（Resilient Distributed Dataset），然后将Spark Streaming

转载 2014-11-06 11:39:23 · 813 阅读 · 0 评论
Spark学习1：基础函数功能解读<转>

Spark已经定义好了一些基本的transformation 和 action的操作，下面我们一探究竟。实例开发：val rdd = sc.parallelize(List(1,2,3,4,5,6)) val mapRdd = rdd.map(_*2) //这是典型的函数式编程mapRdd.collec

转载 2014-11-06 11:19:55 · 617 阅读 · 0 评论
spark 官方动手练习二：用spark浏览维基百科的数据<转>

在本章中，我们将首先使用Spark shell以交互方式浏览维基百科的数据。然后，我们会给出一个简要介绍了编写spark的程序。请记住，Spark是建立在Hadoop分布式文件系统（HDFS）之上的开源的计算引擎。交互数据分析现在，让我们用spark办对数据集中的进行排序和统计。首先，启动spark shell：[root@hadoop spark-0.8.0]# sp

转载 2014-01-08 11:02:07 · 990 阅读 · 0 评论
Spark实现的hello world<转>

spark,又一个传说中的分布式实现,详情:http://spark-project.org/,安装这里就不写了，因为网上已有中文介绍，这里主要是介绍一下入门，和hadoop一样，学习的时候，首先学习spark提供的字符统计例子：javaWordCount原始代码如下：Java代码 import scala.Tuple2; import spar

转载 2014-01-08 10:17:00 · 1702 阅读 · 0 评论
<转>Spark Streaming编程指南

一、概述　　Spark Streaming是基于Core Spark API的可扩展，高吞吐量，并具有容错能力的用于处理实时数据流的一个组件。Spark Streaming可以接收各种数据源传递来的数据，比如Kafka, Flume, Kinesis或者TCP等，对接收到的数据还可以使用一些用高阶函数（比如map, reduce, join及window）进行封装的复杂算法做进一步的处

转载 2016-10-27 09:33:06 · 345 阅读 · 0 评论
<转>Spark 在反作弊聚类场景的实践

作者：周奥特链接：https://zhuanlan.zhihu.com/p/23385044来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。目前知乎站内的 spammer 为了快速取得收效，往往倾向于大批量地产生相似的 spam 内容，或者密集地产生特定的行为。针对这种大量，相似，和相对聚集的特点，我们最近开始尝试使用聚类的方式去发现和挖掘 spa

转载 2016-11-08 10:04:56 · 830 阅读 · 0 评论
<转>Java Web提交任务到Spark

相关软件版本：Spark1.4.1 ，Hadoop2.6，Scala2.10.5 , MyEclipse2014，intelliJ IDEA14，JDK1.8，Tomcat7机器：windows7 （包含JDK1.8，MyEclipse2014，IntelliJ IDEA14，TOmcat7）；centos6.6虚拟机（Hadoop伪分布式集群，Spark stan

转载 2016-12-27 10:22:02 · 619 阅读 · 0 评论
<转>Spark的调度策略详解

摘要： Spark的调度策略 Spark目前有两种调度策略，一种是FIFO即先来先得，另一种是FAIR即公平策略。所谓的调度策略就是对待调度的对象进行排序，按照优先级来进行调度。调度的排序接口如下所示，就是对两个可调度的对象进行比较。 private[spark] trait SchedulingAlgo...Spark的调度策略Spark目前有两种调度策略，一种是FIFO

转载 2017-01-03 09:32:07 · 385 阅读 · 0 评论
<转>Spark机器学习6·聚类模型

Spark机器学习K-均值(K-mean)聚类目的：最小化所有类簇中的方差之和类簇内方差和(WCSS,within cluster sum of squared errors)fuzzy K-means层次聚类(hierarchical culstering)凝聚聚类(agglomerative clustering)分列式聚类(divisive clustering

转载 2017-01-03 09:31:26 · 423 阅读 · 0 评论
<转>整合Kafka到Spark Streaming——代码示例和挑战

作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.

转载 2016-11-14 16:18:50 · 316 阅读 · 0 评论
<转>spark中的广播变量broadcast

Spark中的Broadcast处理首先先来看一看broadcast的使用代码:val values = List[Int](1,2,3)val broadcastValues = sparkContext.broadcast(values)rdd.mapPartitions(iter => { broadcastValues.getValue.forea

转载 2016-11-11 17:22:20 · 685 阅读 · 0 评论

Spark

作者: yongjian_luo

<转>当MongoDB遇见Spark

<转>使用spark ml pipeline进行机器学习

<转>Spark MLlib 数据预处理－特征变换（二）

<转>关于SparkMLlib的基础数据结构Spark-MLlib-Basics

<转>Spark-Mllib 数据类型

<转>Spark机器学习库（MLlib）指南

<转>Spark 学习笔记：MLlib基础

<转>关于SparkMLlib的基础数据结构Spark-MLlib-Basics

<转>spark下线性模型 spark.mllib

<转>Spark中组件Mllib的学习26之逻辑回归-简单数据集，带预测

<转>Spark Mllib逻辑回归算法分析

<转> Spark 线性代数库 Breeze API 详解

<转> 基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘

<转>SparkSQL – 从0到1认识Catalyst

<转>Apache Spark 内存管理详解

<转>Spark执行模式解析

<转>雅虎开源TensorflowOnSpark，Ubuntu配置安装TensorflowOnSpark

<转>推荐系统中基于深度学习的混合协同过滤模型

<转>Spark Mllib逻辑回归算法分析

<转>开源工作流--Azkaban与Oozie对比

<转>【DataFrame】数据离散化重组

<转> 基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘

<转>Spark 生态系统组件

<转>深入理解Spark RDD抽象模型和编写RDD函数

<转>Kafka+Spark Streaming+Redis实时计算整合实践

<转>Spark Streaming：大规模流式数据处理的新贵

<转>Spark Streaming实时计算框架介绍

<转>Spark体系架构

spark之scala学习——11步走进scala<转>

Spark学习笔记-Streaming-1<转>

Spark学习1： 基础函数功能解读<转>

spark 官方动手练习二：用spark浏览维基百科的数据<转>

Spark实现的hello world<转>

<转>Spark Streaming编程指南

<转>Spark 在反作弊聚类场景的实践

<转>Java Web提交任务到Spark

<转>Spark的调度策略详解

<转>Spark机器学习6·聚类模型

<转>整合Kafka到Spark Streaming——代码示例和挑战

<转>spark中的广播变量broadcast

Spark学习1：基础函数功能解读<转>