yirenboy-CSDN博客

原创倾情大奉送--Spark入门实战系列

这一两年Spark技术很火，自己也凑热闹，反复的试验、研究，有痛苦万分也有欣喜若狂，抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍，从Spark的简介、编译、部署，再到编程模型、运行架构，最后介绍其组件SparkSQL、Spark Streaming、Spark MLib和Spark GraphX等。文章内容的整理一般是先介绍原理，随后是实战例子，由于面向的是入门读者，在实战中多截图，还请谅解。

2015-08-05 09:28:18 12770 5

原创 Spark入门实战系列--10.分布式内存文件系统Tachyon介绍及安装部署

Tachyon是AmpLab的李浩源所开发的一个分布式内存文件系统，可以在集群里以访问内存的速度来访问存在Tachyon里的文件。Tachyon是架构在最底层的分布式文件存储和上层的各种计算框架之间的一种中间件，其主要职责是将那些不需要落地到DFS里的文件落地到分布式内存文件系统中来达到共享内存，从而提高效率。

2015-09-16 14:13:43 2812

原创 Spark入门实战系列--9.Spark GraphX介绍及实例

Spark GraphX是一个分布式图处理框架，它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口，极大的方便了对分布式图处理的需求。众所周知•，社交网络中人与人之间有很多关系链，例如Twitter、Facebook、微博和微信等，这些都是大数据产生的地方都需要图计算，现在的图处理基本都是分布式的图处理，而并非单机处理。Spark GraphX由于底层是基于Spark来处理的，所以天然就是一个分布式的

2015-09-14 09:00:47 19700 2

原创 Spark入门实战系列--8.Spark MLlib（下）--SparkMLlib实战

Spark之所以在机器学习方面具有得天独厚的优势，有以下几点原因：（1）机器学习算法一般都有很多个步骤迭代计算的过程，而Spark基于内存的计算模型天生就擅长迭代计算；（2）从通信的角度讲，Spark具有出色而高效的Akka和Netty通信系统，通信效率极高。

2015-09-11 09:25:41 5268

原创 Spark入门实战系列--8.Spark MLlib（上）--机器学习及SparkMLlib简介

- “机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能”。 - “机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。” 一种经常引用的英文定义是：A computer program is said to learn from experience E with respect to some class of tasks T and perform

2015-09-11 09:22:56 8900

原创 Spark入门实战系列--7.Spark Streaming（下）--Spark Streaming实战

Spark Streaming 是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据，包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets，从数据源获取数据之后，可以使用诸如map、reduce、join和window等高级函数进行复杂算法的处理。最后还可以将处理结果存储到文件系统，数据库和现场仪表盘。

2015-09-10 09:45:48 3245 1

原创 Spark入门实战系列--7.Spark Streaming（上）--实时流计算Spark Streaming介绍

Spark Streaming 是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据，包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets，从数据源获取数据之后，可以使用诸如map、reduce、join和window等高级函数进行复杂算法的处理。最后还可以将处理结果存储到文件系统，数据库和现场仪表盘。

2015-09-10 09:44:53 4799 2

原创 Spark入门实战系列--6.SparkSQL（下）--Spark实战应用

SparkSQL引入了一种新的RDD——SchemaRDD，SchemaRDD由行对象（Row）以及描述行对象中每列数据类型的Schema组成；SchemaRDD很象传统数据库中的表。SchemaRDD可以通过RDD、Parquet文件、JSON文件、或者通过使用hiveql查询hive数据来建立。SchemaRDD除了可以和RDD一样操作外，还可以通过registerTempTable注册成临时表，然后通过SQL语

2015-08-31 09:50:56 4322

原创 Spark入门实战系列--6.SparkSQL（中）--深入了解运行计划及调优

前面介绍了SparkSQL的运行过程，罗列了很多概念很抽象，比如Unresolved LogicPlan、LogicPlan、PhysicalPlan，下面介绍一个工具hive/console，来加深对SparkSQL的运行计划的理解。另外Spark是一个快速的内存计算框架，同时是一个并行运算的框架，在计算性能调优的时候，除了要考虑广为人知的木桶原理外，还要考虑平行运算的Amdahl定理。

2015-08-27 10:24:34 4642

原创 Spark入门实战系列--6.SparkSQL（上）--SparkSQL简介

SparkSQL的前身是Shark，给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具，Hive应运而生。但是，随着Spark的发展，对于野心勃勃的Spark团队来说，Shark对于Hive的太多依赖（如采用Hive的语法解析器、查询优化器等等），制约了Spark的One Stack Rule Them All的既定方针，制约了Spark各个组件的相互集成，所以提出了SparkSQL项目。

2015-08-26 09:11:44 7111 2

原创 Spark入门实战系列--5.Hive（下）--Hive实战

本文在前面介绍Hive架构、数据模型和安装部署的基础上介绍了Hive实例，通过实例演示了Hive进行数据处理的过程

2015-08-24 08:59:23 2569

原创 Spark入门实战系列--5.Hive（上）--Hive介绍及部署

Hive是一个基于Hadoop的开源数据仓库工具，用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架，提供了类似于SQL语法的HQL语句作为数据访问接口。

2015-08-20 08:58:53 2941

原创 Spark入门实战系列--4.Spark运行架构

Spark注重建立良好的生态系统，它不仅支持多种外部文件存储系统，提供了多种多样的集群运行模式。部署在单台机器上时，既可以用本地（Local）模式运行，也可以使用伪分布式模式来运行；当以分布式集群部署的时候，可以根据自己集群的实际情况选择Standalone模式（Spark自带的模式）、YARN-Client模式或者YARN-Cluster模式。

2015-08-19 08:59:04 6365

原创 Spark入门实战系列--3.Spark编程模型（上）--概念及SparkShell实战

【注】该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取1 Spark编程模型 1.1 术语定义应用程序（Application）：基于Spark的用户程序，包含了一个Driver Program 和集群中多个的Executor；驱动程序（Driver Program）：运行Application的main()函数并且创建SparkContext，通常用

2015-08-13 09:14:44 5288

原创 Spark入门实战系列--2.Spark编译与部署（下）--Spark编译安装

Spark可以通过SBT和Maven两种方式进行编译，再通过make-distribution.sh脚本生成部署包。SBT编译需要安装git工具，而Maven安装则需要maven工具，两种方式均需要在联网下进行，通过比较发现SBT编译速度较慢（原因有可能是1、时间不一样，SBT是白天编译，Maven是深夜进行的，获取依赖包速度不同 2、maven下载大文件是多线程进行，而SBT是单进程）

2015-08-12 23:13:30 4023

原创 Spark入门实战系列--2.Spark编译与部署（中）--Hadoop编译安装

本文作为Spark编译与部署的前置课程，介绍了Hadoop64位环境下的编译与安装

2015-08-12 23:12:28 3142

原创 Spark入门实战系列--2.Spark编译与部署（上）--基础环境搭建

1、该系列文章以及使用到安装包/测试数据可以在《倾情大奉送–Spark入门实战系列》获取； 2、Spark编译与部署将以CentOS 64位操作系统为基础，主要是考虑到实际应用一般使用64位操作系统，内容分为三部分：基础环境搭建、Hadoop编译安装和Spark编译安装，该环境作为后续实验基础； 3、文章演示了Hadoop、Spark的编译过程，同时附属资源提供了编译好的安装包，觉得编译费时间可以直接使用这些编

2015-08-05 15:40:28 4580

原创 Spark入门实战系列--1.Spark及其生态圈简介

Spark在2013年6月进入Apache成为孵化项目，8个月后成为Apache顶级项目，速度之快足见过人之处，Spark以其先进的设计理念，迅速成为社区的热门项目，围绕着Spark推出了Spark SQL、Spark Streaming、MLLib和GraphX等组件，也就是BDAS（伯克利数据分析栈），这些组件逐渐形成大数据处理一站式解决平台。

2015-08-05 11:18:30 6834