zhouxiaowu_bigdata-CSDN博客

原创 spark大数据分析（四）

PairRDDpairRDD也是RDD，因此同样也支持RDD所支持的函数，例如filter函数：val filterRDD = pairRDD.filter(case(key,value)=>value.length<20)聚合操作当数据集以键值对的形式组织的时候，聚合具有相同键的元素进行一些统计是很常见的操作，例如计算键对应的平均值：scala> val list = sc.paralle

2016-11-03 21:10:27 383

原创 Spark大数据分析（三）

PairRDD spark为包含键值对类型的RDD提供了一些专有的操作。这些RDD被称为pairRDD。pairRDD是很多程序的构成要素，因为它们提供了并行操作各个键或跨节点重新进行数据分组的操作接口。创建pair RDD 需要把一个普通的RDD转换为pairRDD时，可以调用map函数实现，例如： scala使用第一个单词作为键创建一个PairRDDval lines= sc.para

2016-11-03 10:42:07 361

原创 spark大数据分析（二）

## 常见的转化操作和行动操作##map map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD；RDD 之间的元素是一对一的关系。val rdd1 = sc.parallelize(1 to 9,3)val rdd2 = rdd1.map(x=>x*2)rdd2.collectfilter filter是对RDD元素进行过滤；返回一个新的数据集，有经过func函数后返

2016-11-02 21:44:52 329

原创 spark大数据分析（一）

RDD 编程RDD基础 spark对数据的核心抽象——弹性分布式数据集（Resilient Distributed Dataset，简称RDD），RDD是分布式元素的集合。在spark中，对数据的操作有创建RDD、转化RDD、action RDD；RDD是一个不可变的分布式对象集合，每个RDD都被分为多个分区，这些分区运行在集群中的不同节点上，rdd可以包含python、java、scala中的

2016-11-02 17:07:26 1128

Hbase简介Hbase是Apche Hadoop中的一个子项目，Hbase依托于Hadoop的hdfs作为最基本的存储单元，Hbase是运行在Hadoop上的NoSQL数据库，它是一个分布式可扩展的大数据仓库，也就是说Hbase能够利用hdfs的分布式处理模式，并从hadoop的mapreduce程序模型中获益，这意味着一组商业硬件存储许多具有十亿行和上百万列的大表，除去hadoop的优势，hba

2016-11-01 20:33:35 471

转载 hadoop学习——Hive

hive简介hive是facebook数据团队基于hadoop开发的数据仓库封装，对存储在分布式中的大型数据集进行查询和管理。主要提供以下功能：提供了一系列的工具，用来对数据进行提取、转化、加载（ETl）;一种可以存储、查询和分析存储在hdfs中的大规模数据的机制；查询是通过mapreduce来完成（有些查询也可以不通过mapreduce来完成）Hive是一种建立在Hadoop文件系统上

2016-11-01 16:59:54 243

原创 hadoop学习——Pig

## Pig ##pig是一种hadoop的探索大规模数据集轻量级脚本语言，最初由雅虎推出，可以非常方便的处理hdfs和hbase的数据。 mapreduce的一个主要缺点就是开发周期太长了。我们要编写mapper和reducer，然后对代码进行编译打出jar包，提交到本地的jvm或者是hadoop集群上，最后获取结果，这个过程是非常耗时的，pig的强大之处就是只要几行piglatin代

2016-11-01 15:46:35 341

原创 Hadoop学习——基础

hadoop 原理 hadoop是apche基金会的一个开源项目，是一个可运行在大规模集群上的分布式并行编程框架，核心设计是HDFS（分布式文件系统）和mapreduce。为用户提供了底层细节透明的分布式基础设施。其中hdfs提供了高容错和高伸缩的特性，而mapreduce计算模型编写分布式应用程序相对简单，主要设计实现map、reduce类，其他并行编程复杂问题如分布式存储，工作调度，负载均衡

2016-10-31 23:00:21 454

原创查找中位数（java 快速排序）

中位数（又称中值，英语：Median），统计学中的专有名词，代表一个样本、种群或概率分布中的一个数值，其可将数值集合划分为相等的上下两部分。对于有限的数集，可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个，通常取最中间的两个数值的平均数作为中位数。 java代码：import java.util.*;/** * @version 1.0 * @author zho

2016-10-31 16:14:39 8260

原创协同过滤推荐算法

推荐算法中，协同过滤算法是最经典、最常用的算法。该算法收集用户的偏好进而分析用户的偏好，在用户群中找到指定用户的相似用户，综合这些相似用户对某一信息的评价，形成系统关于该用户对此信息的喜好程度预测。步骤： 1. 收集用户偏好； 2. 找到相似的用户或物品； 3. 计算推荐。收集用户偏好信息成为系统推荐效果最基础的决定因素，评分、投票、转发、保存书签、收藏、购买、点击流、页面停留

2016-10-31 16:08:49 334

原创 scala语言入门

由于学习spark的时候，接触到scala语言，scala语言是一门多范式编程语言，可以进行面向对象编程也可以函数式编程，运行在java虚拟机上，相对于python、java、c语言，scala语言要求比较高，可以像python一样当脚本语言使用，但scala速度比python快得多，Scala 源代码被编译成Java字节码，可以调用现有的Java类库。hello scala：object He

2016-10-23 11:04:00 1027

原创 java 折半查找

折半查找给定一组数据，先进行快速排序，再进行折半查找import java.util.*;/** * @version 1.0 * @author zhouxiaowu * */public class BinSearch { public static void main(String[] args){ Scanner sc = new Scanner(Sy

2016-10-21 16:50:06 381

原创 java版简单选择排序

java 简单选择排序import java.util.*;/** * @version 1.0 * @author zhouxiaowu * */import java.util.*;public class SelectSort { public static void main(String[] args){ Scanner sc = new Sca

2016-10-20 16:57:40 185

原创 java版插入排序

java 插入排序代码：import java.util.*;/** * @version 1.0 * @author zhoujianhong * */public class InsertSort { public static void main(String[] args){ Scanner sc = new Scanner(System.in); Sys

2016-10-20 16:53:35 193

原创 java版快速排序

java 快速排序代码：import java.util.*;/** * @version 1.0 2016-10-20 * @author zhouxiaowu * */public class QuickSort { public static void main(String[] args){ Scanner sc = new Scanner(System.

2016-10-20 16:49:02 229

原创 java 版冒泡排序

java 版冒泡排序import java.util.*;/** * @version 1.0 * @author zhouxiaowu * */public class BubbleSort { public static void main(String[] args){ Scanner sc = new Scanner(System.in);

2016-10-20 16:44:05 209

原创 java版堆排序

java 语言写的堆排序import java.util.*;/** * @version 1.0 2016-10-20 * @author zhoujianhong * */public class BigheapSort { public static void main(String[] args){ Scanner sc = new Scanner(System.

2016-10-20 16:30:23 345