wy的点滴

盛年不重来。

PAGE-RANK算法及SPARK实现分析

查看原文:http://www.wyblog.cn/2017/01/06/pagerank%e7%ae%97%e6%b3%95%e5%8f%8aspark%e5%ae%9e%e7%8e%b0%e5%88%86%e6%9e%90/算法 这里不总结算法,下面这篇博客总结的很清晰。 http://w...

2017-01-06 17:17:05

阅读数:1826

评论数:0

整理一下HIVE概念

首先要明白,HIVE是HADOOP生态系统中充当数据仓库的角色。它本质上是是一个SQL解释器,就是使得我们能用SQL查询语言去查询HDFS上的数据。而这个功能,容易让我们误认为它就是传统的数据库。但事实上,它与传统的数据库是有区别的,下文会提到。 HIVE的数据分为两个部分,一个是存数据的数据库,...

2016-10-18 14:08:38

阅读数:648

评论数:0

使用虚拟机从小白开始搭建Spark集群

前言此篇博文记录一个小白如何用虚拟机搭建一个集群的血泪史,用来体验Spark的分布式计算。 在搭建之前,先理清一些概念。 Spark有三种集群搭建方式。分别为 独立集群模式,即standalone模式 搭建在Hadoop生态圈的YARN之上 搭建在Mesos之上 此篇讲述的是第2种。 而第2...

2016-10-03 21:46:00

阅读数:8561

评论数:5

SPARK里的shuffle

定义 shuffle中文一般称为 数据混洗。 shuffle的官方定义是,它是spark的一种让数据重新分布以使得某些数据被放在同一分区里的一种机制。 例子比如reduceByKey操作。 有时,同一个key的value并没有分布在同一个partition里,甚至没有分布在同一台机器里,而是存放...

2016-09-19 16:59:11

阅读数:922

评论数:0

SPARK中的基本概念

基本概念以下内容主要参考自《大数据Spark企业实战》一书(作者:王家林) Application:用户编写的Spark程序,包含Driver和Executor代码。 Driver:运行main函数并且创建和关闭SparkContext的程序。 Executor:运行在Worker节点上的一个进程...

2016-09-05 12:48:46

阅读数:530

评论数:0

join操作避免数据混洗的partitionBy()方法

我们经常需要把两张表进行join操作。 在join时,我们对数据集是如何分区的一无所知。 默认情况下,会把两个数据集中所有键的哈希值都求出来,将该哈希值相同的记录通过网络传到同一台机器上,然后在那台机器上对所有键相同的记录进行连接。 当出现特殊情况时,比如两张表里某张表非常大,并且这张表里的...

2016-08-31 20:05:25

阅读数:982

评论数:0

SPARK里的reduce(),fold(),以及aggregate()

以上三个方法操作都是对RDD进行的聚合操作。 reduce()与fold()方法是对同种元素类型数据的RDD进行操作,即必须同构。其返回值返回一个同样类型的新元素。 num=sc.parallelize([1,2,3,4]) sum=num.reduce(lambda x,y: x+y)fold(...

2016-08-29 16:27:40

阅读数:6573

评论数:0

SPARK基础操作备忘

首先得cd到SPARK目录下,方便操作文件。 读取数据创建RDD: lines=sc.textFlie("README.md") pythonLines=lines.filter(lambda line: "Python" in line)经过以上操作,在p...

2016-08-27 15:19:12

阅读数:385

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭