Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别

Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别        初接触Hadoop技术的朋友肯定会对它体系下寄生的个个开源项目糊涂了,我敢保证Hive,Pig,HBase这些开源技术会把你搞的有些糊涂,不要紧糊涂的不止你一个,如某个菜鸟的帖子的疑问,whe...

2016-05-31 23:25:47

阅读数:239

评论数:0

Hadoop Oozie 学习笔记(六) Hadoop Oozie概述

本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1391975           网上中文资料有点少,我这里翻译下官网.对自己也是个梳理,希望对大家也有用.             Oozie是一个工作流引擎服务器,用于运...

2016-05-31 23:19:05

阅读数:255

评论数:0

scribe、chukwa、kafka、flume日志系统对比

1. 背景介绍        许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征: (1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦; (2) 支持近实时的在线分析系统和...

2016-05-31 22:19:35

阅读数:264

评论数:0

Avro总结(RPC/序列化)

Avro(读音类似于[ævrə])是Hadoop的一个子项目,由Hadoop的创始人Doug Cutting(也是Lucene,Nutch等项目的创始人,膜拜)牵头开发,当前最新版本1.3.3。Avro是一个数据序列化系统,设计用于支持大批量数据交换的应用。它的主要特点有:支持二进制序列化方式,可...

2016-05-31 22:15:26

阅读数:928

评论数:0

基于Flume的美团日志收集系统(二)改进和优化

问题导读: 1.Flume的存在些什么问题? 2.基于开源的Flume美团增加了哪些功能? 3.Flume系统如何调优? 在《基于Flume的美团日志收集系统(一)架构和设计》中,我们详述了基于Flume的美团日志收集系统的架构设计,以及为什么做这样的设计。在本节中,我...

2016-05-31 21:56:31

阅读数:262

评论数:0

基于Flume的美团日志收集系统(一)架构和设计

美团的日志收集系统负责美团的所有业务日志的收集,并分别给Hadoop平台提供离线数据和Storm平台提供实时数据流。美团的日志收集系统基于Flume设计和搭建而成。 《基于Flume的美团日志收集系统》将分两部分给读者呈现美团日志收集系统的架构设计和实战经验。 第一部分架构和设计,将主...

2016-05-31 21:51:50

阅读数:177

评论数:0

Hadoop数据传输工具:Sqoop

Apache Sqoop(SQL-to-Hadoop) 项目旨在协助 RDBMS 与 Hadoop 之间进行高效的大数据交流。用户可以在 Sqoop 的帮助下,轻松地把关系型数据库的数据导入到 Hadoop 与其相关的系统 (如HBase和Hive)中;同时也可以把数据从 Hadoop 系统里抽取...

2016-05-31 21:17:34

阅读数:273

评论数:0

flume-ng+Kafka+Storm+HDFS 实时系统搭建

一直以来都想接触Storm实时计算这块的东西,最近在群里看到上海一哥们罗宝写的Flume+Kafka+Storm的实时日志流系统的搭建文档,自己也跟着整了一遍,之前罗宝的文章中有一些要注意点没提到的,以后一些写错的点,在这边我会做修正;内容应该说绝大部分引用罗宝的文章的,这里要谢谢罗宝兄弟,还有写...

2016-05-29 18:19:57

阅读数:276

评论数:0

flume+kafka+storm+mysql架构设计

我重新整理的篇最新版的安装笔记:点击打开链接 版本 flume-ng1.6 kafka2.10-0.8.2 storm0.9.5 大家可以看这篇文章中的架构图和数据流向图。但是安装部署请看最新版的。 另外目前主要给银行做hadoop、spark、impala、storm项目,欢迎热爱技...

2016-05-29 18:01:00

阅读数:437

评论数:0

Hadoop 的 Oozie 工作流管理引擎的实际应用(二)

定义过程 我们在此描述的工作流会实现汽车GPS探测数据的获取过程。我们每个小时都会以文件的形式把探测数据传递到指定的HDFS目录中[1],其中包含有这个小时之内的所有探测数据。探测数据的获取是每天针对一天内所有的24个文件完成的。如果文件的数量是24,那么获取过程就会启动。否则: ...

2016-05-29 17:43:00

阅读数:583

评论数:0

Hadoop 的 Oozie 工作流管理引擎的实际应用(一)

Apache Oozie 是 Apache Hadoop 生态系统中的一个关键组件,它使得开发人员能够调度电子邮件通知方面的重复作业,或者调度使用 Java™、UNIX Shell、Apache Hive、Apache Pig 和 Apache Sqoop 等各种编程语言编写的重复作业。本文将介绍...

2016-05-29 17:39:46

阅读数:1364

评论数:0

hadoop框架详细分析

mapreduce是一种模式,一种什么模式呢?一种云计算的核心计算模式,一种分布式运算技术,也是简化的分布式编程模式,它主要用于解决问题的程序开发模型,也是开发人员拆解问题的方法。 如下图所示,mapreduce模式的主要思想是将自动分割要执行的问题(例如程序)拆解成map(映射)和...

2016-05-29 17:28:46

阅读数:232

评论数:0

Hive和Hbase

1. 两者分别是什么?    Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--...

2016-05-29 17:26:52

阅读数:154

评论数:0

Storm和Spark 学习流式实时分布式计算的设计

0. 背景 最近我在做流式实时分布式计算系统的架构设计,而正好又要参加CSDN博文大赛的决赛。本来想就写Spark源码分析的文章吧。但是又想毕竟是决赛,要拿出一些自己的干货出来,仅仅是源码分析貌似分量不够。因此,我将最近一直在做的系统架构的思路整理出来,形成此文。为什么要参考Storm和Sp...

2016-05-27 22:32:42

阅读数:512

评论数:1

Storm:流式处理框架

诞 生  在2011年Storm开源之前,由于Hadoop的火红,整个业界都在喋喋不休地谈论大数据。Hadoop的高吞吐,海量数据处理的能力使得人们可以方便地处理海量数据。但是,Hadoop的缺点也和它的优点同样鲜明——延迟大,响应缓慢,运维复杂。 有需求也就有创造,在Hadoop基本...

2016-05-27 16:28:58

阅读数:265

评论数:0

流式大数据处理的三种框架:Storm,Spark和Samza

许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。 Apache Storm 在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控...

2016-05-27 15:42:59

阅读数:429

评论数:0

探索 OpenStack 之(16):计量模块 Ceilometer 介绍及优化

0. 背景 0.1 为什么要有 Ceilometer? 通常云,特别是公有云在计费方面有三个层次: 计量 (Metering): 收集资源的使用数据,其数据信息主要包括:使用对象(what), 使用者(who), 使用时间(when)和 用量(how much)。 ...

2016-05-24 16:01:00

阅读数:691

评论数:0

Kafka+Storm+HDFS整合架构

在基于Hadoop平台的很多应用场景中,我们需要对数据进行离线和实时分析,离线分析可以很容易地借助于Hive来实现统计分析,但是对于实时的需求Hive就不合适了。实时应用场景可以使用Storm,它是一个实时处理系统,它为实时处理类应用提供了一个计算模型,可以很容易地进行编程处理。为了统一离线和实时...

2016-05-23 14:13:00

阅读数:701

评论数:0

将OpenStack私有云部署到Hadoop MapReduce环境中

随着企业开始同时利用云计算和大数据技术,现在应当考虑如何将这些工具结合使用。在这种情况下,企业将实现最佳的分析处理能力,同时利用私有云的快速弹性 (rapid elasticity) 和单一租赁的特性。本文将帮助您了解云计算和大数据技术的组成部分,了解私有云是什么,Apache Hadoop 是什...

2016-05-21 11:45:49

阅读数:378

评论数:0

云计算与大数据概述

一、云计算与大数据概述    云计算(cloud computing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽象。狭义云计算指IT基...

2016-05-21 11:16:32

阅读数:3781

评论数:1

提示
确定要删除当前文章?
取消 删除
关闭
关闭