![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 96
yongjian_luo
这个作者很懒,什么都没留下…
展开
-
<转>当MongoDB遇见Spark
适宜读者人群正在使用Mongodb的开发者传统Spark生态系统 和 MongoDB在Spark生态的角色传统Spark生态系统Spark生态系统那么Mongodb作为一个database, 可以担任什么样的角色呢? 就是数据存储这部分, 也就是图中的黑色圈圈HDFS的部分, 如下图用MongoDB替换HDFS后的Spark生态系统转载 2017-03-27 10:25:57 · 1516 阅读 · 0 评论 -
<转>使用spark ml pipeline进行机器学习
一、关于spark ml pipeline与机器学习一个典型的机器学习构建包含若干个过程1、源数据ETL2、数据预处理3、特征选取4、模型训练与验证以上四个步骤可以抽象为一个包括多个步骤的流水线式工作,从数据收集开始至输出我们需要的最终结果。因此,对以上多个步骤、进行抽象建模,简化为流水线式工作流程则存在着可行性,对利用spark进行机器学习的用户来转载 2017-01-17 16:40:57 · 424 阅读 · 0 评论 -
<转>Spark MLlib 数据预处理-特征变换(二)
作者:刘玲源链接:https://zhuanlan.zhihu.com/p/24069545来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。算法介绍:VectorIndexer解决数据集中的类别特征Vector。它可以自动识别哪些特征是类别型的,并且将原始值转换为类别指标。它的处理流程如下:1.获得一个向量类型的输入以及maxCategor转载 2017-01-12 14:19:59 · 2388 阅读 · 0 评论 -
<转>关于SparkMLlib的基础数据结构Spark-MLlib-Basics
此部分主要关于MLlib的基础数据结构1、本地向量MLlib的本地向量主要分为两种,DenseVector和SparseVector,顾名思义,前者是用来保存稠密向量,后者是用来保存稀疏向量,其创建方式主要有一下三种(三种方式均创建了向量(1.0, 0.0, 2.0):[plain] view plain copyimport o转载 2017-01-11 12:06:14 · 288 阅读 · 0 评论 -
<转>Spark-Mllib 数据类型
一.本地向量 有如下几个类: Vector(基类),DenseVector,SparseVector,Vectors(工厂方法,推荐用)工厂模式是:定义一个用于创建对象的接口,让子类决定实例化哪一个类,使一个类的实例化延迟到子类import org.apache.spark.mllib.linalg.{Vectors,Vector} # linalg is shor转载 2017-01-11 11:50:25 · 319 阅读 · 0 评论 -
<转>Spark机器学习库(MLlib)指南
spark-1.6.1机器学习库(MLlib)指南MLlib是Spark的机器学习(ML)库。旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。MLllib目前分为两个代码包:spark.mllib 包含基于RDD的原始算法API。spark转载 2017-01-11 11:42:41 · 902 阅读 · 0 评论 -
<转>Spark 学习笔记:MLlib基础
MLlib:Machine Learning Library。主要内容包括:数据类型统计工具summary statisticscorrelationsstratified samplinghypothesis testingrandom data generation 分类和回归线性模型(SVM,逻辑回归,线性回归)朴素贝叶斯决策树ense转载 2017-01-11 11:41:52 · 308 阅读 · 0 评论 -
<转>关于SparkMLlib的基础数据结构Spark-MLlib-Basics
此部分主要关于MLlib的基础数据结构1、本地向量MLlib的本地向量主要分为两种,DenseVector和SparseVector,顾名思义,前者是用来保存稠密向量,后者是用来保存稀疏向量,其创建方式主要有一下三种(三种方式均创建了向量(1.0, 0.0, 2.0):[plain] view plain copyimport o转载 2017-01-11 11:23:13 · 275 阅读 · 0 评论 -
<转>spark下线性模型 spark.mllib
我还是参考官方的文档来写这个部分,顺便梳理下原理,给出对应代码及运行结果,一点也不复杂。数学公式许多的机器学习的算法实际上可以被写成凸优化的问题,比如说寻找凸函数f的极小值,它取决于权重向量w,那么我们可以将优化目标函数写成: 这里xi∈Rd是训练数据,yi∈R是它们对应的标签,线性方法可以表示成L(w;x,y),有几类mllib中的分类和回归算法都可以归为这一类。转载 2017-01-10 17:17:38 · 277 阅读 · 0 评论 -
<转>Spark中组件Mllib的学习26之逻辑回归-简单数据集,带预测
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之逻辑回归篇 1解释 什么是逻辑回归?Logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于它们的因变量不同,其他的基本都差不多。正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalizedlinear mode转载 2017-01-10 14:33:32 · 376 阅读 · 0 评论 -
<转>Spark Mllib逻辑回归算法分析
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3816289.html 本文以spark 1.0.0版本MLlib算法为准进行分析一、代码结构逻辑回归代码主要包含三个部分1、classfication:逻辑回归分类器2、optimization:优化方法,包含了随机梯度、LBFGS两种算法转载 2017-01-12 17:56:31 · 873 阅读 · 0 评论 -
<转> Spark 线性代数库 Breeze API 详解
转载请标明出处:小帆的帆的专栏运算加,减,乘,除向量与向量加:+减:-乘::*除::/规则1:乘除前面,加冒号;单独的乘号和除号分别表示点积和线性求解 规则2:累加效果,加等号import breeze.linalg.DenseVectorobject Test { def main(args: Array[String]) { va转载 2017-01-12 18:01:18 · 625 阅读 · 0 评论 -
<转> 基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘
转载请注明:转载 from http://blog.csdn.net/u011239443/article/details/53735609 近期参加了CCF举办的“大数据精准营销中搜狗用户画像挖掘”竞赛,就那它来写了。本博文会在这几周不断的完善更新ing1. 选题背景与意义1.1 用户画像与精准营销 “用户画像”是近几年诞生的名词。很多营销项目或很多广告主,在打算转载 2017-01-13 10:14:49 · 1409 阅读 · 0 评论 -
<转>SparkSQL – 从0到1认识Catalyst
最近想来,大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验,弱势在于分布式领域的高可用性、容错性、扩展性等,假以时日,让其经过一定的改造,比如引入Paxos、raft等,强化自己在分布式领域的能力,相信一定会在大数据系统中占有一席之地。相反,大数据相关技术优势在于其天生的扩展性、可用性、容错性等,但其SQL优化器经验却基本全部来自于传统转载 2017-03-15 14:00:21 · 409 阅读 · 0 评论 -
<转>Apache Spark 内存管理详解
Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者有一定的 Spark 和 Java 基础,了解 RDD、Shuff转载 2017-03-31 14:35:01 · 1178 阅读 · 2 评论 -
<转>Spark执行模式解析
摘要:本文主要讲了Spark几种不同的执行模式以及其原理一、执行模式提交脚本常见的语法:[plain] view plain copy ./bin/spark-submit \ --class --master \ --deploy-mode \ --conf = \ ... #转载 2017-03-08 09:38:56 · 319 阅读 · 0 评论 -
<转>雅虎开源TensorflowOnSpark,Ubuntu配置安装TensorflowOnSpark
一、引言 Yahoo在2016年2月左右开源了基于Spark/Hadoop的分布式深度学习框架—CaffeOnSpark,CaffeOnSpark被设计成为一个Spark深度学习包,Spark MLlib支持各种非深度学习算法用于分类、回归、聚类、推荐等,但目前缺乏深度学习这一关键能力,而CaffeOnSpark旨在填补这一空白。CaffeOnSpark API支持dataframes,以转载 2017-02-24 11:23:56 · 370 阅读 · 0 评论 -
<转>推荐系统中基于深度学习的混合协同过滤模型
近些年,深度学习在语音识别、图像处理、自然语言处理等领域都取得了很大的突破与成就。相对来说,深度学习在推荐系统领域的研究与应用还处于早期阶段。携程在深度学习与推荐系统结合的领域也进行了相关的研究与应用,并在国际人工智能顶级会议AAAI 2017上发表了相应的研究成果《A Hybrid Collaborative Filtering Model with Deep Structure for转载 2017-01-24 15:14:08 · 1163 阅读 · 0 评论 -
<转>Spark Mllib逻辑回归算法分析
一、代码结构逻辑回归代码主要包含三个部分1 、 classfication :逻辑回归分类器2 、 optimization :优化方法,包含了随机梯度、LBFGS两种算法3 、 evaluation :算法效果评估计算二、逻辑回归分类器1 、 LogisticRegressionModel 类(1) 根据训练数据集得到的weight转载 2017-01-22 10:49:06 · 461 阅读 · 0 评论 -
<转>开源工作流--Azkaban与Oozie对比
功能二者都可以调度mapreduce,pig,java,脚本工作流任务二者都可以定时履行工作流任务工作流定义Azkaban使用Properties文件定义工作流Oozie使用XML文件定义工作流工作流传参Azkaban支持直接传参,例如${input}Oozie支持参数和EL表达式,例如${fs:dirSize(myInputDir)}定时履行A转载 2017-02-20 15:41:10 · 953 阅读 · 0 评论 -
<转>【DataFrame】数据离散化重组
离散化的原始数据来自 Spark 源码包,离散化函数选用 spark ml 包中的 Bucketizer 方法。[java] view plain copypackage ethink import org.apache.spark.sql.SQLContext import org.apache.spark.SparkC转载 2017-01-18 20:05:01 · 1741 阅读 · 0 评论 -
<转> 基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘
转载请注明:转载 from http://blog.csdn.net/u011239443/article/details/53735609 近期参加了CCF举办的“大数据精准营销中搜狗用户画像挖掘”竞赛,就那它来写了。本博文会在这几周不断的完善更新ing1. 选题背景与意义1.1 用户画像与精准营销 “用户画像”是近几年诞生的名词。很多营销项目或很多广告主,在打算转载 2017-01-13 10:16:32 · 861 阅读 · 0 评论 -
<转>Spark 生态系统组件
Spark 生态系统以Spark Core 为核心,能够读取传统文件(如文本文件)、HDFS、Amazon S3、Alluxio 和NoSQL 等数据源,利用Standalone、YARN 和Mesos 等资源调度管理,完成应用程序分析与处理。这些应用程序来自Spark 的不同组件,如Spark Shell 或Spark Submit 交互式批处理方式、Spark Streaming 的实时流处理转载 2017-01-04 11:15:57 · 1278 阅读 · 0 评论 -
<转>深入理解Spark RDD抽象模型和编写RDD函数
深入理解Spark RDD抽象模型和编写RDD函数Spark revolves around the concept of a resilient distributed dataset (RDD), which is an immutable , fault-tolerant , partitioned collection of elements that can be opera转载 2016-12-27 10:34:26 · 681 阅读 · 0 评论 -
<转>Kafka+Spark Streaming+Redis实时计算整合实践
基于Spark通用计算平台,可以很好地扩展各种计算类型的应用,尤其是Spark提供了内建的计算库支持,像Spark Streaming、Spark SQL、MLlib、GraphX,这些内建库都提供了高级抽象,可以用非常简洁的代码实现复杂的计算逻辑、这也得益于Scala编程语言的简洁性。这里,我们基于1.3.0版本的Spark搭建了计算平台,实现基于Spark Streaming的实时计算。我转载 2016-09-20 16:50:00 · 1101 阅读 · 0 评论 -
<转>Spark Streaming:大规模流式数据处理的新贵
提到Spark Streaming,我们不得不说一下BDAS(Berkeley Data Analytics Stack),这个伯克利大学提出的关于数据分析的软件栈。从它的视角来看,目前的大数据处理可以分为如以下三个类型。 复杂的批量数据处理(batch data processing),通常的时间跨度在数十分钟到数小时之间。基于历史数据的交互式查询(interactive query转载 2016-09-20 16:19:07 · 282 阅读 · 0 评论 -
<转>Spark Streaming实时计算框架介绍
随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐、用户行为分析等。 Spark Streaming是建立在Spark上的实时计算框架,通过它提供的丰富的API、基于内存的高速执行引擎,用户可以结合流式、批处理和交互试查询应用。本文将详细介绍Spark Streaming实时计算框架的原理与特点、适用场景。转载 2016-09-20 15:19:55 · 304 阅读 · 0 评论 -
<转>Spark体系架构
最近看到一篇关于Spark架构的博文,作者是 Alexey Grishchenko。看过Alexey博文的同学应该都知道,他对Spark理解地非常深入,读完他的 “spark-architecture” 这篇博文,有种醍醐灌顶的感觉,从JVM内存分配到Spark集群的资源管理,步步深入,感触颇多。因此,在周末的业余时间里,将此文的核心内容译成中文,并在这里与大家分享。如在翻译过程中有文字上的表达纰转载 2016-09-20 09:59:22 · 425 阅读 · 0 评论 -
spark之scala学习——11步走进scala<转>
scala和java或.NET都可以协同工作。Scala的主编译器,scalac,会生成在jvm上运行的class文件。然而,另一个编辑器则生成能在.NET CLR上运行的二进制文件。scala和java代码可以实现互操作;1. 下载、解压、环境变量;2. 进入shell:[plain] view plaincopyprint?转载 2014-11-06 11:45:42 · 713 阅读 · 0 评论 -
Spark学习笔记-Streaming-1<转>
Spark Streaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是Spark Engine,也就是把Spark Streaming的输入数据按照batch size(如1秒)分成一段一段的数据(Discretized Stream),每一段数据都转换成Spark中的RDD(Resilient Distributed Dataset),然后将Spark Streaming转载 2014-11-06 11:39:23 · 813 阅读 · 0 评论 -
Spark学习1: 基础函数功能解读<转>
Spark已经定义好了一些基本的transformation 和 action的操作,下面我们一探究竟。实例开发:val rdd = sc.parallelize(List(1,2,3,4,5,6)) val mapRdd = rdd.map(_*2) //这是典型的函数式编程mapRdd.collec转载 2014-11-06 11:19:55 · 617 阅读 · 0 评论 -
spark 官方动手练习二:用spark浏览维基百科的数据<转>
在本章中,我们将首先使用Spark shell以交互方式浏览维基百科的数据。然后,我们会给出一个简要介绍了编写spark的程序。请记住,Spark是建立在Hadoop分布式文件系统(HDFS)之上的开源的计算引擎。交互数据分析现在,让我们用spark办对数据集中的进行排序和统计。首先,启动spark shell:[root@hadoop spark-0.8.0]# sp转载 2014-01-08 11:02:07 · 990 阅读 · 0 评论 -
Spark实现的hello world<转>
spark,又一个传说中的分布式实现,详情:http://spark-project.org/,安装这里就不写了,因为网上已有中文介绍,这里主要是介绍一下入门,和hadoop一样,学习的时候,首先学习spark提供的字符统计例子:javaWordCount原始代码如下:Java代码 import scala.Tuple2; import spar转载 2014-01-08 10:17:00 · 1702 阅读 · 0 评论 -
<转>Spark Streaming编程指南
一、概述 Spark Streaming是基于Core Spark API的可扩展,高吞吐量,并具有容错能力的用于处理实时数据流的一个组件。Spark Streaming可以接收各种数据源传递来的数据,比如Kafka, Flume, Kinesis或者TCP等,对接收到的数据还可以使用一些用高阶函数(比如map, reduce, join及window)进行封装的复杂算法做进一步的处转载 2016-10-27 09:33:06 · 345 阅读 · 0 评论 -
<转>Spark 在反作弊聚类场景的实践
作者:周奥特链接:https://zhuanlan.zhihu.com/p/23385044来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。目前知乎站内的 spammer 为了快速取得收效,往往倾向于大批量地产生相似的 spam 内容,或者密集地产生特定的行为。针对这种大量,相似,和相对聚集的特点,我们最近开始尝试使用聚类的方式去发现和挖掘 spa转载 2016-11-08 10:04:56 · 830 阅读 · 0 评论 -
<转>Java Web提交任务到Spark
相关软件版本:Spark1.4.1 ,Hadoop2.6,Scala2.10.5 , MyEclipse2014,intelliJ IDEA14,JDK1.8,Tomcat7机器:windows7 (包含JDK1.8,MyEclipse2014,IntelliJ IDEA14,TOmcat7);centos6.6虚拟机(Hadoop伪分布式集群,Spark stan转载 2016-12-27 10:22:02 · 619 阅读 · 0 评论 -
<转>Spark的调度策略详解
摘要: Spark的调度策略 Spark目前有两种调度策略,一种是FIFO即先来先得,另一种是FAIR即公平策略。所谓的调度策略就是对待调度的对象进行排序,按照优先级来进行调度。调度的排序接口如下所示,就是对两个可调度的对象进行比较。 private[spark] trait SchedulingAlgo...Spark的调度策略Spark目前有两种调度策略,一种是FIFO转载 2017-01-03 09:32:07 · 385 阅读 · 0 评论 -
<转>Spark机器学习6·聚类模型
Spark机器学习K-均值(K-mean)聚类 目的:最小化所有类簇中的方差之和类簇内方差和(WCSS,within cluster sum of squared errors)fuzzy K-means层次聚类(hierarchical culstering)凝聚聚类(agglomerative clustering)分列式聚类(divisive clustering转载 2017-01-03 09:31:26 · 423 阅读 · 0 评论 -
<转>整合Kafka到Spark Streaming——代码示例和挑战
作者Michael G. Noll是瑞士的一位工程师和研究员,效力于Verisign,是Verisign实验室的大规模数据分析基础设施(基础Hadoop)的技术主管。本文,Michael详细的演示了如何将Kafka整合到Spark Streaming中。 期间, Michael还提到了将Kafka整合到 Spark Streaming中的一些现状,非常值得阅读,虽然有一些信息在Spark 1.转载 2016-11-14 16:18:50 · 316 阅读 · 0 评论 -
<转>spark中的广播变量broadcast
Spark中的Broadcast处理首先先来看一看broadcast的使用代码:val values = List[Int](1,2,3)val broadcastValues = sparkContext.broadcast(values)rdd.mapPartitions(iter => { broadcastValues.getValue.forea转载 2016-11-11 17:22:20 · 685 阅读 · 0 评论