![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
路人张的鱼生
这个作者很懒,什么都没留下…
展开
-
Spark之K-均值算法中的一些问题
Spark之K-均值算法中的一些问题今天看了一个千人千面推荐系统的公开课,原理上来说并不难,主要是使用K均值算法,在之前学过了Spark下K均值算法之后,便尝试使用K均值算法去模拟简单的千人千面推荐系统,以后有时间在慢慢研究用户画像数据数据由用户id,该用户访问19个网站的次数组成,如下所示1,83,92,72,62,71,0,49,0,10,0,0,0,0,26,84,0,3,0,02...原创 2020-02-01 23:23:54 · 213 阅读 · 0 评论 -
Spark之K-近邻算法
Spark下的k邻近分类算法原创 2020-01-26 17:27:18 · 994 阅读 · 0 评论 -
Spark之共同好友
关于查找共同好友这部分内容,原理部分如MapReduce之共同好友 所示,下面是改为Spark程序之后的代码输入数据100,200 300 400 500 600200,100 300 400300,100 200 400 500400,100 200 300500,100 300600,100Scala程序package CommonFriendsimport org...原创 2020-01-23 22:44:31 · 404 阅读 · 0 评论 -
Spark之购物篮分析
Spark之购物篮分析关于购物篮分析,具体的思路可以看Mapreduce之购物篮分析 以下是编写号的Spark程序package MBAimport org.apache.spark.{SparkConf, SparkContext}import scala.collection.mutable.ListBufferobject MBA { def main(args: A...原创 2020-01-23 17:26:26 · 599 阅读 · 0 评论 -
spark之左外连接
spark之左外连接什么是左外连接令T1T_1T1(左表)和T2T_2T2(右表)是以下两个关系(其中t1t_1t1是T1T_1T1的属性,t2t_2t2是T2T_2T2的属性): T1=(K,t1)T_1=(K,t_1)T1=(K,t1) T2=(K,t2)T_2=(K,t_2)T...原创 2020-01-05 20:03:29 · 1370 阅读 · 0 评论 -
spark之移动平均(内存中排序)
spark之移动平均(内存中排序)关于移动平均的详细解释,可以参考MapReduce之移动平均,这里只是把程序从MapReduce换成了spark-scala,原理上没变化,不过scala写起来确实比MapReduce快package MoveAverageimport org.apache.spark.{SparkConf, SparkContext}object MovingAve...原创 2020-01-05 16:45:43 · 182 阅读 · 0 评论 -
spark之实时统计
spark之实时统计这篇博客其实和Spark之Spark Streaming处理文件流数据区别不是特别的大,权可以看作为毕业设计作准备的,使用了线程和通信的模式处理文件流,最后对5秒内的输入数据进行统计,代码如下package openClassimport org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}...原创 2020-01-04 15:48:41 · 694 阅读 · 0 评论 -
Spark之反转排序
Spark之反转排序关于反转排序的原理,可以参考之前写过的MapReduce之反转排序,这是尝试用Spark复现后的代码package OrderInversionimport org.apache.spark.{SparkConf, SparkContext}object OrderInversion { def main(args: Array[String]): Unit =...原创 2019-12-31 16:43:46 · 575 阅读 · 0 评论 -
spark之非唯一键下TopN算法
spark之非唯一键下TopN算法什么是非唯一键,假设所有给定的(K,V)(K,V)(K,V)中,KKK不唯一,所以必须增加额外的步骤来确保在TopN算法中键是唯一的,举个例子,假设有三个Web服务器(服务器1,服务器2,服务器3),每个服务器采取以下形式收集URL:(URL,count)对应各个Web服务器的(URL,count)如下服务器1服务器2服务器3(A,...原创 2019-12-27 18:17:22 · 147 阅读 · 0 评论 -
Spark之唯一键下TopN算法
Spark之TopN算法简述Spark中的TopN算法原理上与MapReduce的TopN算法是相同的,只不过是换成了特定的Spark操作而以。输入数据1,cat1,12,cat2,23,cat3,34,cat4,45,cat5,56,cat6,67,cat7,78,cat8,89,cat9,910,cat10,1011,cat11,1112,cat12,1213,...原创 2019-12-26 14:39:45 · 195 阅读 · 0 评论 -
Spark之K-均值算法
Spark之K-均值算法Spark框架在MLlib库中提供了一些常用的机器学习的功能,其中就有聚类算法,包括K-均值算法K-均值算法的Spark实现有以下参数K是期望簇数maxIterations是运行最大迭代次数initializationMode是指定随机初始化还是通过kmeans||初始化runs 是运行k-means算法次数initializationsStep是确定kme...原创 2019-09-19 10:20:54 · 333 阅读 · 0 评论 -
《spark高级数据分析》二——用决策树算法预测森林植被
用决策树算法预测森林植被向量和特征在根据今天的天气预测明天的气温事件中,“今天的天气”中某些“特征”却是能预测明天的气温,例如今天的最高气温今天的最低气温今天的平均湿度今天是多云、晴天还是下雨今天有几家天气预报估计明天有寒流这些特征有时被称作纬度、预测指标,以上每个特征都可以被量化。比如气温高低可以用“摄氏度”度量,湿度可以用 0~1 范围内的小数来度量,天气类型可以用“多...原创 2019-07-26 22:55:49 · 1463 阅读 · 0 评论 -
Spark之词频统计
Spark之词频统计经过了一段时间的Hadoop学习,从今天开始正式走上Spark学习之路,先回顾一下简单的词频统计程序,参考文章三行命令解决spark词频统计Idea环境中的代码如下import org.apache.spark.SparkContextimport org.apache.spark.SparkContext._import org.apache.spark.Spark...原创 2019-07-11 14:11:15 · 2633 阅读 · 0 评论 -
《Spark高级数据分析》学习一 —— 数据分析基础
简单数据分析数据集下载:数据集下载下载完成后,首先解压文件创建RDD要在文件或目录上创建RDD,使用textFile方法传入文件或目录名称val rawblocks=sc.textFile("file:///media/hadoop/Ubuntu/data/donation")把数据从集群上获取到客户端最简单的一个方法,使用first,即向客户端返回RDD的第一个元素rawblo...原创 2019-07-15 15:34:47 · 323 阅读 · 0 评论 -
Spark机器学习之垃圾邮件分类
Spark机器学习之垃圾邮件分类步骤概述通过HashingTF构建文本的特征向量,然后使用随机梯度下降算法实现逻辑回归,进而对邮件进行分类垃圾邮件分类代码导入相关的包import org.apache.spark.mllib.regression.LabeledPointimport org.apache.spark.mllib.feature.HashingTFimport org...原创 2019-06-04 14:25:59 · 1253 阅读 · 2 评论 -
Spark机器学习之 Word2Vec
Spark机器学习之 Word2VecWord2Vec简介Word2Vec是一个词嵌入方法,可以计算每个单词在给定的语料库环境下的分布式向量,如果两个单词的语义相近,那么词向量在向量空间中也相互接近,判断向量空间的接近程度来判断来两个单词是否相似首先导入Word2Vec所需要的包,并创建可以代表文档的词语序列如果是由数组构成的相关元素,在转换成相关的DataFrame需要用 Tuple1....原创 2019-06-04 11:07:50 · 887 阅读 · 0 评论 -
Spark机器学习之 TF-IDF
Spark机器学习之 TF-IDFTF-IDF简介TF-IDF叫做词频-逆向文件频率,主要体现一个文档当中的词语在语料库中的重要程度,计算公式如下:IDF(t,D)=log∣D∣+1DF(t,D)+1,.IDF(t,D) = log\frac{|D|+1}{DF(t,D)+1},.IDF(t,D)=logDF(t,D)+1∣D∣+1,.TF分为两步,分为TF和IDF,在TF中使用Ha...原创 2019-06-03 12:31:28 · 282 阅读 · 0 评论 -
三行命令解决spark词频统计
三行命令解决spark词频统计如何通过三行命令解决词频统计问题1、使用textFile加载文本2、使用flatMap()生成以单词为键,数字1为值的RDD3、使用reduceByKey()对所有单词进行过统计原文档如下命令如下val input=sc.textFile("file:///media/hadoop/Ubuntu/word.txt")val words=input.f...原创 2019-05-11 22:16:51 · 1200 阅读 · 0 评论 -
Spark之Spark Streaming处理文件流数据
Spark之Spark Streaming处理文件流数据创建相关文件路径先设置一个用于保存文件的路径,创建的路径地址为 /usr/local/spark/mycode/streaming/logfile导入相关类import org.apache.spark.streaming._创建一个StreamingContext对象val ssc=new StreamingContext(s...原创 2019-05-20 17:56:39 · 3416 阅读 · 0 评论