- 博客(32)
- 资源 (1)
- 收藏
- 关注
原创 倾情大奉送--Spark入门实战系列
这一两年Spark技术很火,自己也凑热闹,反复的试验、研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介、编译、部署,再到编程模型、运行架构,最后介绍其组件SparkSQL、Spark Streaming、Spark MLib和Spark GraphX等。文章内容的整理一般是先介绍原理,随后是实战例子,由于面向的是入门读者,在实战中多截图,还请谅解。
2015-08-05 09:28:18 12415 22
原创 Spark入门实战系列--10.分布式内存文件系统Tachyon介绍及安装部署
Tachyon是AmpLab的李浩源所开发的一个分布式内存文件系统,可以在集群里以访问内存的速度来访问存在Tachyon里的文件。Tachyon是架构在最底层的分布式文件存储和上层的各种计算框架之间的一种中间件,其主要职责是将那些不需要落地到DFS里的文件落地到分布式内存文件系统中来达到共享内存,从而提高效率。
2015-09-16 14:13:43 2689 1
原创 Spark入门实战系列--9.Spark GraphX介绍及实例
Spark GraphX是一个分布式图处理框架,它是基于Spark平台提供对图计算和图挖掘简洁易用的而丰富的接口,极大的方便了对分布式图处理的需求。众所周知•,社交网络中人与人之间有很多关系链,例如Twitter、Facebook、微博和微信等,这些都是大数据产生的地方都需要图计算,现在的图处理基本都是分布式的图处理,而并非单机处理。Spark GraphX由于底层是基于Spark来处理的,所以天然就是一个分布式的
2015-09-14 09:00:47 19332 2
原创 Spark入门实战系列--8.Spark MLlib(下)--SparkMLlib实战
Spark之所以在机器学习方面具有得天独厚的优势,有以下几点原因: (1)机器学习算法一般都有很多个步骤迭代计算的过程,而Spark基于内存的计算模型天生就擅长迭代计算;(2)从通信的角度讲,Spark具有出色而高效的Akka和Netty通信系统,通信效率极高。
2015-09-11 09:25:41 5071 2
原创 Spark入门实战系列--8.Spark MLlib(上)--机器学习及SparkMLlib简介
- “机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能”。 - “机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。” 一种经常引用的英文定义是:A computer program is said to learn from experience E with respect to some class of tasks T and perform
2015-09-11 09:22:56 8650
原创 Spark入门实战系列--7.Spark Streaming(下)--Spark Streaming实战
Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets,从数据源获取数据之后,可以使用诸如map、reduce、join和window等高级函数进行复杂算法的处理。最后还可以将处理结果存储到文件系统,数据库和现场仪表盘。
2015-09-10 09:45:48 3103 1
原创 Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming介绍
Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种数据源获取数据,包括Kafk、Flume、Twitter、ZeroMQ、Kinesis 以及TCP sockets,从数据源获取数据之后,可以使用诸如map、reduce、join和window等高级函数进行复杂算法的处理。最后还可以将处理结果存储到文件系统,数据库和现场仪表盘。
2015-09-10 09:44:53 4641 4
原创 Spark入门实战系列--6.SparkSQL(下)--Spark实战应用
SparkSQL引入了一种新的RDD——SchemaRDD,SchemaRDD由行对象(Row)以及描述行对象中每列数据类型的Schema组成;SchemaRDD很象传统数据库中的表。SchemaRDD可以通过RDD、Parquet文件、JSON文件、或者通过使用hiveql查询hive数据来建立。SchemaRDD除了可以和RDD一样操作外,还可以通过registerTempTable注册成临时表,然后通过SQL语
2015-08-31 09:50:56 4130 1
原创 Spark入门实战系列--6.SparkSQL(中)--深入了解运行计划及调优
前面介绍了SparkSQL的运行过程,罗列了很多概念很抽象,比如Unresolved LogicPlan、LogicPlan、PhysicalPlan,下面介绍一个工具hive/console,来加深对SparkSQL的运行计划的理解。 另外Spark是一个快速的内存计算框架,同时是一个并行运算的框架,在计算性能调优的时候,除了要考虑广为人知的木桶原理外,还要考虑平行运算的Amdahl定理。
2015-08-27 10:24:34 4524
原创 Spark入门实战系列--6.SparkSQL(上)--SparkSQL简介
SparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生。但是,随着Spark的发展,对于野心勃勃的Spark团队来说,Shark对于Hive的太多依赖(如采用Hive的语法解析器、查询优化器等等),制约了Spark的One Stack Rule Them All的既定方针,制约了Spark各个组件的相互集成,所以提出了SparkSQL项目。
2015-08-26 09:11:44 6919 2
原创 Spark入门实战系列--5.Hive(下)--Hive实战
本文在前面介绍Hive架构、数据模型和安装部署的基础上介绍了Hive实例,通过实例演示了Hive进行数据处理的过程
2015-08-24 08:59:23 2396
原创 Spark入门实战系列--5.Hive(上)--Hive介绍及部署
Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL语句作为数据访问接口。
2015-08-20 08:58:53 2809
原创 Spark入门实战系列--4.Spark运行架构
Spark注重建立良好的生态系统,它不仅支持多种外部文件存储系统,提供了多种多样的集群运行模式。部署在单台机器上时,既可以用本地(Local)模式运行,也可以使用伪分布式模式来运行;当以分布式集群部署的时候,可以根据自己集群的实际情况选择Standalone模式(Spark自带的模式)、YARN-Client模式或者YARN-Cluster模式。
2015-08-19 08:59:04 6130
原创 Spark入门实战系列--3.Spark编程模型(上)--概念及SparkShell实战
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送–Spark入门实战系列》获取1 Spark编程模型 1.1 术语定义应用程序(Application): 基于Spark的用户程序,包含了一个Driver Program 和集群中多个的Executor;驱动程序(Driver Program):运行Application的main()函数并且创建SparkContext,通常用
2015-08-13 09:14:44 5158
原创 Spark入门实战系列--2.Spark编译与部署(下)--Spark编译安装
Spark可以通过SBT和Maven两种方式进行编译,再通过make-distribution.sh脚本生成部署包。SBT编译需要安装git工具,而Maven安装则需要maven工具,两种方式均需要在联网下进行,通过比较发现SBT编译速度较慢(原因有可能是1、时间不一样,SBT是白天编译,Maven是深夜进行的,获取依赖包速度不同 2、maven下载大文件是多线程进行,而SBT是单进程)
2015-08-12 23:13:30 3891
原创 Spark入门实战系列--2.Spark编译与部署(中)--Hadoop编译安装
本文作为Spark编译与部署的前置课程,介绍了Hadoop64位环境下的编译与安装
2015-08-12 23:12:28 3033
原创 Spark入门实战系列--2.Spark编译与部署(上)--基础环境搭建
1、该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送–Spark入门实战系列》获取; 2、Spark编译与部署将以CentOS 64位操作系统为基础,主要是考虑到实际应用一般使用64位操作系统,内容分为三部分:基础环境搭建、Hadoop编译安装和Spark编译安装,该环境作为后续实验基础; 3、文章演示了Hadoop、Spark的编译过程,同时附属资源提供了编译好的安装包,觉得编译费时间可以直接使用这些编
2015-08-05 15:40:28 4497 1
原创 Spark入门实战系列--1.Spark及其生态圈简介
Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目,速度之快足见过人之处,Spark以其先进的设计理念,迅速成为社区的热门项目,围绕着Spark推出了Spark SQL、Spark Streaming、MLLib和GraphX等组件,也就是BDAS(伯克利数据分析栈),这些组件逐渐形成大数据处理一站式解决平台。
2015-08-05 11:18:30 6649
原创 Hadoop入门进阶课程13--Chukwa介绍与安装部署
1 搭建环境部署节点操作系统为CentOS,防火墙和SElinux禁用,创建了一个shiyanlou用户并在系统根目录下创建/app目录,用于存放Hadoop等组件运行包。因为该目录用于安装hadoop等组件程序,用户对shiyanlou必须赋予rwx权限(一般做法是root用户在根目录下创建/app目录,并修改该目录拥有者为shiyanlou(chown –R shiyanlou:shiya
2015-08-04 10:15:47 1789 1
原创 Hadoop入门进阶课程12--Flume介绍与安装
1 搭建环境部署节点操作系统为CentOS,防火墙和SElinux禁用,创建了一个shiyanlou用户并在系统根目录下创建/app目录,用于存放Hadoop等组件运行包。因为该目录用于安装hadoop等组件程序,用户对shiyanlou必须赋予rwx权限(一般做法是root用户在根目录下创建/app目录,并修改该目录拥有者为shiyanlou(chown –R shiyanlou:shiya
2015-08-04 10:14:59 1017
原创 Hadoop入门进阶课程11--Sqoop介绍、安装与操作
1 搭建环境部署节点操作系统为CentOS,防火墙和SElinux禁用,创建了一个shiyanlou用户并在系统根目录下创建/app目录,用于存放Hadoop等组件运行包。因为该目录用于安装hadoop等组件程序,用户对shiyanlou必须赋予rwx权限(一般做法是root用户在根目录下创建/app目录,并修改该目录拥有者为shiyanlou(chown –R shiyanlou:shiya
2015-08-04 10:13:31 745
原创 Hadoop入门进阶课程10--HBase介绍、安装与应用案例
1 搭建环境部署节点操作系统为CentOS,防火墙和SElinux禁用,创建了一个shiyanlou用户并在系统根目录下创建/app目录,用于存放Hadoop等组件运行包。因为该目录用于安装hadoop等组件程序,用户对shiyanlou必须赋予rwx权限(一般做法是root用户在根目录下创建/app目录,并修改该目录拥有者为shiyanlou(chown –R shiyanlou:shiya
2015-08-03 15:57:41 982
原创 Hadoop入门进阶课程9--Mahout介绍、安装与应用案例
1 搭建环境部署节点操作系统为CentOS,防火墙和SElinux禁用,创建了一个shiyanlou用户并在系统根目录下创建/app目录,用于存放Hadoop等组件运行包。因为该目录用于安装hadoop等组件程序,用户对shiyanlou必须赋予rwx权限(一般做法是root用户在根目录下创建/app目录,并修改该目录拥有者为shiyanlou(chown –R shiyanlou:shiya
2015-08-03 15:56:58 1074
原创 Hadoop入门进阶课程8--Hive介绍和安装部署
* 1 搭建环境*部署节点操作系统为CentOS,防火墙和SElinux禁用,创建了一个shiyanlou用户并在系统根目录下创建/app目录,用于存放Hadoop等组件运行包。因为该目录用于安装hadoop等组件程序,用户对shiyanlou必须赋予rwx权限(一般做法是root用户在根目录下创建/app目录,并修改该目录拥有者为shiyanlou(chown –R shiyanlou
2015-08-03 15:55:04 989
原创 Hadoop入门进阶课程7--Pig介绍、安装与应用案例
1 搭建环境部署节点操作系统为CentOS,防火墙和SElinux禁用,创建了一个shiyanlou用户并在系统根目录下创建/app目录,用于存放Hadoop等组件运行包。因为该目录用于安装hadoop等组件程序,用户对shiyanlou必须赋予rwx权限(一般做法是root用户在根目录下创建/app目录,并修改该目录拥有者为shiyanlou(chown –R shiyanlou:shiya
2015-07-15 15:41:21 1072
原创 Hadoop入门进阶课程6--MapReduce应用案例
1 环境说明注意:本实验是对前述实验的延续,如果直接点开始实验进入则需要按先前学习的方法启动hadoop部署节点操作系统为CentOS,防火墙和SElinux禁用,创建了一个shiyanlou用户并在系统根目录下创建/app目录,用于存放Hadoop等组件运行包。因为该目录用于安装hadoop等组件程序,用户对shiyanlou必须赋予rwx权限(一般做法是root用户在根目录下创建/
2015-07-15 15:40:05 1708
原创 Hadoop入门进阶课程5--MapReduce原理及操作
* 1 环境说明*部署节点操作系统为CentOS,防火墙和SElinux禁用,创建了一个shiyanlou用户并在系统根目录下创建/app目录,用于存放Hadoop等组件运行包。因为该目录用于安装hadoop等组件程序,用户对shiyanlou必须赋予rwx权限(一般做法是root用户在根目录下创建/app目录,并修改该目录拥有者为shiyanlou(chown –R shiyanlou
2015-07-15 15:30:08 1315
原创 Hadoop入门进阶课程4--HDFS原理及操作
1 环境说明部署节点操作系统为CentOS,防火墙和SElinux禁用,创建了一个shiyanlou用户并在系统根目录下创建/app目录,用于存放Hadoop等组件运行包。因为该目录用于安装hadoop等组件程序,用户对shiyanlou必须赋予rwx权限(一般做法是root用户在根目录下创建/app目录,并修改该目录拥有者为shiyanlou(chown –R shiyanlou:shiya
2015-07-10 22:01:15 1533
原创 Hadoop入门进阶课程3--Hadoop2.X64位环境搭建
【注】该系列课程是应邀实验楼整理编写的,这里需要赞一下实验楼提供了学习的新方式,可以边看博客边上机实验,课程地址为 https://www.shiyanlou.com/courses/2371 搭建环境部署节点操作系统为CentOS,防火墙和SElinux禁用,创建了一个shiyanlou用户并在系统根目录下创建/app目录,用于存放Hadoop等组件运行包。因为该目录用于安装hadoop等组件程序
2015-07-10 14:28:50 989
原创 Hadoop入门进阶课程2--Hadoop2.X 64位编译
Hadoop2.X 64位编译1 编译Hadoop2.X 64位1.1 软硬件环境说明节点使用CentOS系统,防火墙和SElinux禁用,创建了一个shiyanlou用户,并在系统根目录下创建/app目录,用于存放Hadoop等组件运行包。因为该目录用于安装hadoop等组件程序,用户对shiyanlou必须赋予rwx权限(一般做法是root用户在根目录下创建/app目录,并修改
2015-07-10 14:27:49 1063
原创 Hadoop入门进阶课程1--Hadoop1.X伪分布式安装
1.Hadoop介绍1.1Hadoop简介Apache Hadoop软件库是一个框架,允许在集群服务器上使用简单的编程模型对大数据集进行分布式处理。Hadoop被设计成能够从单台服务器扩展到数以千计的服务器,每台服务器都有本地的计算和存储资源。Hadoop的高可用性并不依赖硬件,其代码库自身就能在应用层侦测并处理硬件故障,因此能基于服务器集群提供高可用性的服务。1.2 Hadoop
2015-07-08 11:06:47 1677 1
原创 使用SVN+CruiseControl+ANT实现持续集成之一----持续集成概念及CC原理介绍
使用SVN+CruiseControl+ANT实现持续集成--持续集成概念及CC原理介绍 在前面的文章中,介绍自己当时所在团队的处境(使用.NET开发),一个不到十个人的研发团队在保证正常开发进度同时需要并发支持四、五十个项目问题处理,经常为了程序版本冲突、日常测
2011-09-15 13:17:30 820
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人