软件架构
文章平均质量分 94
yunpiao123456
这个作者很懒,什么都没留下…
展开
-
探索 OpenStack 之(16):计量模块 Ceilometer 介绍及优化
0. 背景0.1 为什么要有 Ceilometer?通常云,特别是公有云在计费方面有三个层次:计量 (Metering): 收集资源的使用数据,其数据信息主要包括:使用对象(what), 使用者(who), 使用时间(when)和 用量(how much)。计费 (Rating):将资源使用数据按照商务规则转化为可计费项目并计算费用结转载 2016-05-24 16:01:00 · 973 阅读 · 0 评论 -
基于Flume的美团日志收集系统(二)改进和优化
问题导读:1.Flume的存在些什么问题?2.基于开源的Flume美团增加了哪些功能?3.Flume系统如何调优?在《基于Flume的美团日志收集系统(一)架构和设计》中,我们详述了基于Flume的美团日志收集系统的架构设计,以及为什么做这样的设计。在本节中,我们将会讲述在实际部署和使用过程中遇到的问题,对Flume的功能改进和对系统做的优化。1 Flume转载 2016-05-31 21:56:31 · 406 阅读 · 0 评论 -
Avro总结(RPC/序列化)
Avro(读音类似于[ævrə])是Hadoop的一个子项目,由Hadoop的创始人Doug Cutting(也是Lucene,Nutch等项目的创始人,膜拜)牵头开发,当前最新版本1.3.3。Avro是一个数据序列化系统,设计用于支持大批量数据交换的应用。它的主要特点有:支持二进制序列化方式,可以便捷,快速地处理大量数据;动态语言友好,Avro提供的机制使动态语言可以方便地处理Avro数据。转载 2016-05-31 22:15:26 · 1339 阅读 · 0 评论 -
scribe、chukwa、kafka、flume日志系统对比
1. 背景介绍 许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:(1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦;(2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统;(3) 具有高可扩展性。即:当数据量增加时,可以通过增加转载 2016-05-31 22:19:35 · 496 阅读 · 0 评论 -
Hadoop Oozie 学习笔记(六) Hadoop Oozie概述
本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1391975 网上中文资料有点少,我这里翻译下官网.对自己也是个梳理,希望对大家也有用. Oozie是一个工作流引擎服务器,用于运行Hadoop Map/Reduce和Pig 任务工作流.同时Oozie还是一个Java Web程序,转载 2016-05-31 23:19:05 · 447 阅读 · 0 评论 -
Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别
Hadoop生态上几个技术的关系与区别:hive、pig、hbase 关系与区别 初接触Hadoop技术的朋友肯定会对它体系下寄生的个个开源项目糊涂了,我敢保证Hive,Pig,HBase这些开源技术会把你搞的有些糊涂,不要紧糊涂的不止你一个,如某个菜鸟的帖子的疑问,when to use Hbase and when to use Hive?....请教了^_^没关系转载 2016-05-31 23:25:47 · 429 阅读 · 0 评论 -
将OpenStack私有云部署到Hadoop MapReduce环境中
随着企业开始同时利用云计算和大数据技术,现在应当考虑如何将这些工具结合使用。在这种情况下,企业将实现最佳的分析处理能力,同时利用私有云的快速弹性 (rapid elasticity) 和单一租赁的特性。本文将帮助您了解云计算和大数据技术的组成部分,了解私有云是什么,Apache Hadoop 是什么,它们的协同效用,如何进行部署它们,以及它们带来的挑战有哪些。私有云计算简介转载 2016-05-21 11:45:49 · 573 阅读 · 0 评论 -
云计算与大数据概述
一、云计算与大数据概述 云计算(cloud computing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽象。狭义云计算指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,原创 2016-05-21 11:16:32 · 15101 阅读 · 1 评论 -
Kafka图文详解
From Quorum to ISREvery write operation goes to all replicas, but only responsesfrom a majority quorum are necessary to commit the write.每一次写操作都分发到所有副本,只有大部分节点应答才能提交写缺点:随着副本数的增加,集群中需要ack的节点数转载 2016-06-02 22:57:55 · 379 阅读 · 0 评论 -
Flink 原理与实现:内存管理
如今,大数据领域的开源框架(Hadoop,Spark,Storm)都使用的 JVM,当然也包括 Flink。基于 JVM 的数据分析引擎都需要面对将大量数据存到内存中,这就不得不面对 JVM 存在的几个问题:Java 对象存储密度低。一个只包含 boolean 属性的对象占用了16个字节内存:对象头占了8个,boolean 属性占了1个,对齐填充占了7个。而实际上只需要一个bit(1/8字转载 2016-06-02 23:22:35 · 1644 阅读 · 0 评论 -
基于Flume的美团日志收集系统(一)架构和设计
美团的日志收集系统负责美团的所有业务日志的收集,并分别给Hadoop平台提供离线数据和Storm平台提供实时数据流。美团的日志收集系统基于Flume设计和搭建而成。《基于Flume的美团日志收集系统》将分两部分给读者呈现美团日志收集系统的架构设计和实战经验。第一部分架构和设计,将主要着眼于日志收集系统整体的架构设计,以及为什么要做这样的设计。第二部分改进和优化,将主要着眼于转载 2016-05-31 21:51:50 · 291 阅读 · 0 评论 -
Hadoop数据传输工具:Sqoop
Apache Sqoop(SQL-to-Hadoop) 项目旨在协助 RDBMS 与 Hadoop 之间进行高效的大数据交流。用户可以在 Sqoop 的帮助下,轻松地把关系型数据库的数据导入到 Hadoop 与其相关的系统 (如HBase和Hive)中;同时也可以把数据从 Hadoop 系统里抽取并导出到关系型数据库里。除了这些主要的功能外,Sqoop 也提供了一些诸如查看数据库表等实用的小工具。转载 2016-05-31 21:17:34 · 574 阅读 · 0 评论 -
流式大数据处理的三种框架:Storm,Spark和Samza
许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍,然后尝试快速、高度概述其异同。Apache Storm在Storm中,先要设计一个用于实时计算的图状结构,我们称之为拓扑(topology)。这个拓扑将会被提交给集群,由集群中的主控节点(master node)分发代码,将任务分配给工作节点(worker node)执行。一个拓转载 2016-05-27 15:42:59 · 715 阅读 · 0 评论 -
Storm:流式处理框架
诞 生 在2011年Storm开源之前,由于Hadoop的火红,整个业界都在喋喋不休地谈论大数据。Hadoop的高吞吐,海量数据处理的能力使得人们可以方便地处理海量数据。但是,Hadoop的缺点也和它的优点同样鲜明——延迟大,响应缓慢,运维复杂。有需求也就有创造,在Hadoop基本奠定了大数据霸主地位的时候,很多的开源项目都是以弥补Hadoop的实时性为目标而被创造出来。而在这个节转载 2016-05-27 16:28:58 · 495 阅读 · 0 评论 -
Storm和Spark 学习流式实时分布式计算的设计
0. 背景最近我在做流式实时分布式计算系统的架构设计,而正好又要参加CSDN博文大赛的决赛。本来想就写Spark源码分析的文章吧。但是又想毕竟是决赛,要拿出一些自己的干货出来,仅仅是源码分析貌似分量不够。因此,我将最近一直在做的系统架构的思路整理出来,形成此文。为什么要参考Storm和Spark,因为没有参照效果可能不会太好,尤其是对于Storm和Spark由了解的同学来说,可能通过对比,转载 2016-05-27 22:32:42 · 716 阅读 · 1 评论 -
hadoop框架详细分析
mapreduce是一种模式,一种什么模式呢?一种云计算的核心计算模式,一种分布式运算技术,也是简化的分布式编程模式,它主要用于解决问题的程序开发模型,也是开发人员拆解问题的方法。如下图所示,mapreduce模式的主要思想是将自动分割要执行的问题(例如程序)拆解成map(映射)和reduce(化简)的方式,流程图如下图1所示:在数据被分割后通过Map 函数的程序将转载 2016-05-29 17:28:46 · 467 阅读 · 0 评论 -
Hive和Hbase
1. 两者分别是什么? Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能够在Haoop上批量的执行Hadoop。 Apache HBase是一种K转载 2016-05-29 17:26:52 · 298 阅读 · 0 评论 -
Hadoop 的 Oozie 工作流管理引擎的实际应用(一)
Apache Oozie 是 Apache Hadoop 生态系统中的一个关键组件,它使得开发人员能够调度电子邮件通知方面的重复作业,或者调度使用 Java™、UNIX Shell、Apache Hive、Apache Pig 和 Apache Sqoop 等各种编程语言编写的重复作业。本文将介绍处理某些业务场景的框架的实际应用,还将谈论解决方案架构师、技术架构师、顾问、数据科学家、技术领导,以及转载 2016-05-29 17:39:46 · 1911 阅读 · 0 评论 -
Hadoop 的 Oozie 工作流管理引擎的实际应用(二)
定义过程我们在此描述的工作流会实现汽车GPS探测数据的获取过程。我们每个小时都会以文件的形式把探测数据传递到指定的HDFS目录中[1],其中包含有这个小时之内的所有探测数据。探测数据的获取是每天针对一天内所有的24个文件完成的。如果文件的数量是24,那么获取过程就会启动。否则:过程的总体实现请见图1当天什么都不做对前一天——最多到7天,发送剩下的内容到探测数据提转载 2016-05-29 17:43:00 · 731 阅读 · 0 评论 -
flume+kafka+storm+mysql架构设计
我重新整理的篇最新版的安装笔记:点击打开链接版本flume-ng1.6kafka2.10-0.8.2storm0.9.5大家可以看这篇文章中的架构图和数据流向图。但是安装部署请看最新版的。另外目前主要给银行做hadoop、spark、impala、storm项目,欢迎热爱技术的朋友加好友一起探讨大数据。序言前段时间学习了storm,最近刚开blog,就把这些资料放上转载 2016-05-29 18:01:00 · 734 阅读 · 0 评论 -
flume-ng+Kafka+Storm+HDFS 实时系统搭建
一直以来都想接触Storm实时计算这块的东西,最近在群里看到上海一哥们罗宝写的Flume+Kafka+Storm的实时日志流系统的搭建文档,自己也跟着整了一遍,之前罗宝的文章中有一些要注意点没提到的,以后一些写错的点,在这边我会做修正;内容应该说绝大部分引用罗宝的文章的,这里要谢谢罗宝兄弟,还有写这篇文章@晨色星空J2EE也给了我很大帮助,这里也谢谢@晨色星空J2EE之前在弄这转载 2016-05-29 18:19:57 · 421 阅读 · 0 评论 -
Kafka+Storm+HDFS整合架构
在基于Hadoop平台的很多应用场景中,我们需要对数据进行离线和实时分析,离线分析可以很容易地借助于Hive来实现统计分析,但是对于实时的需求Hive就不合适了。实时应用场景可以使用Storm,它是一个实时处理系统,它为实时处理类应用提供了一个计算模型,可以很容易地进行编程处理。为了统一离线和实时计算,一般情况下,我们都希望将离线和实时计算的数据源的集合统一起来作为输入,然后将数据的流向分别经由实转载 2016-05-23 14:13:00 · 1034 阅读 · 0 评论