云计算Hadoop
文章平均质量分 81
想作会飞的鱼
~~~
展开
-
走向云计算之HBase的基本原理和架构介绍
一、概述HBase是一个构建在HDFS上的分布式列存储系统;HBase是Apache Hadoop生态系统中的重要一员,主要用于海量结构化数据存储;从逻辑上讲,HBase将数据按照表、行和列进行存储。它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储非结构化和半结构化的松散数据。原创 2017-06-15 21:32:17 · 1216 阅读 · 0 评论 -
走向云计算之MapReduce的代码辅助优化和改善
一、概述hadoop的MapReduce在运行时,hadoop框架在幕后为我们完成了许多重要的工作,这部分内容对用户是透明的,一般我们不必去关心其运行。但是在不同的应用场景中,可能需要对其中的一些小地方进行优化或者修改,以更好的解决当前的场景问题。下面就介绍几个实际开发中可能会遇到的情况。二、hadoop计数器计数器是hadoop用来记录job任务的执行进度和状态的。它的作用可以理解为日志。我们通常原创 2017-06-15 15:54:43 · 1125 阅读 · 0 评论 -
走向云计算之MapReduce应用案例详解
一、概述前面关于MapReduce的wordcount程序已经做了比较详细的分析,这里再给出MapReduce应用的几个小案例,来更加深入的理解MapReduce的设计理念和应用方法。部分内容参考了书籍《hadoop实战》中的内容。二、MapReduce应用之数据去重在统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重这个操作。1、情境要求假设有如下两个数据样本原创 2017-06-14 20:32:47 · 4776 阅读 · 1 评论 -
走向云计算之MapReduce原理和运行流程详解
一、概述MapReduce的设计理念源自于Google的MapReduce论文(发表于2004年12月),Hadoop MapReduce是Google MapReduce克隆版。MapReduce采用”分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是”任务的分解与结果的汇总”。Map原创 2017-06-13 22:07:05 · 5606 阅读 · 0 评论 -
走向云计算之Hadoop YARN的基本原理和运行流程
一、概述Yarn是Hadoop集群的资源管理系统。Hadoop2.0对MapReduce框架做了彻底的设计重构,我们称Hadoop2.0中的MapReduce为MRv2或者Yarn。我们先回头看一下Hadoop1.x的MapReduce模型。 Yarn的产生直接源于MRv1在几个方面的缺陷扩展性受限单点故障难以支持MR之外的计算多计算框架各自为战,数据共享困难 MR:离线计算框架原创 2017-06-13 17:02:27 · 1119 阅读 · 0 评论 -
走向云计算之HDFS详解
一、概要作为Hadoop的核心技术之一,HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)是分布式计算中数据存储管理的基础。它所具有的高容错、高可靠、高可扩展性、高吞吐率等特性为海量数据提供了不怕故障的存储,也为超大规模数据集(Large Data Set)的应用处理带来了很多便利。1、HDFS优点高容错性 1、数据自动保存多个副本 2、副本丢原创 2017-06-13 11:12:11 · 2961 阅读 · 0 评论 -
走向云计算之Hadoop基本介绍及生态系统
一、Hadoop基本架构Hadoop有许多发行版本,基本可以分为1.x版本和2.x版本。两者基本组成如下: 1、HDFS(Hadoop Distributed File System)其基本思想源自于Google的GFS论文,HDFS是GFS克隆版。HDFS特点 1、良好的扩展性 2、高容错性 3、适合PB级以上海量数据的存储基本原理 1、将文件切分成等大的数据块,存储到多台机器上原创 2017-06-12 22:18:33 · 1023 阅读 · 0 评论 -
走向云计算系列文章总索引
0、注意:本系列文章均没有涉及相关环境和系统的搭建,关于环境搭建还请参考其他资料。1、走向云计算之Hadoop基本介绍及生态系统2、走向云计算之HDFS详解3、走向云计算之Hadoop YARN的基本原理和运行流程4、走向云计算之MapReduce原理和运行流程详解5、走向云计算之MapReduce应用案例详解6、走向云计算之MapReduce的代码辅助优化和改善7、走向云计算之HBase的基本原理原创 2017-06-24 15:13:34 · 864 阅读 · 0 评论 -
走向云计算之工作流引擎Oozie
一、概述目前计算框架和作业类型繁多:包括MapReduce Java、Streaming、HQL、Pig等,如何对这些框架和作业进行统一管理和调度是我们需要面临的一个问题。目前有多种解决方案:可以使用Crontab,也可以自己设计调度系统,还可以直接使用开源系统。 如果我们自己设计调度系统,可以通过crontab+shell来实现,如下所示://mapreduce_job.shcmd=原创 2017-06-21 14:30:11 · 620 阅读 · 0 评论 -
走向云计算之Hadoop实际应用网站日志分析
一、概述网站日志分析是Hadoop应用的一个方向。那么什么是网站日志呢? 网站日志是记录web服务器接收处理请求以及运行时错误等各种原始信息的以.log结尾文件。通过网站日志可以清楚的得知用户在什么IP、什么时间、用什么操作系统、什么浏览器、什么分辨率显示器的情况下访问了你网站的哪个页面,是否访问成功。对于SEO优化人员来说,日志就是我们网站优化的指南针,就是我们优化的晴雨表,能够通过分析日志能原创 2017-06-20 18:54:41 · 3542 阅读 · 6 评论 -
走向云计算之Hadoop数据同步框架Sqoop
一、概述Sqoop即SQL-to-Hadoop,是连接传统关系型数据库和Hadoop 的桥梁,用于把关系型数据库的数据导入到 Hadoop 系统 ( 如 HDFS HBase 和 Hive) 中;也可以把数据从 Hadoop 系统里抽取并导出到关系型数据库里。Sqoop利用MapReduce加快数据传输速度,并且采用批处理方式进行数据传输。Sqoop具有以下优势:高效、可控地利用资源,例如任务并行原创 2017-06-19 20:31:01 · 2020 阅读 · 0 评论 -
走向云计算之数据收集系统Flume
一、概述我们知道Hadoop提供了一个中央化的存储系统,有利于进行集中式的数据分析与数据共享,而且Hadoop对存储格式没有要求,比如可以存储用户访问日志、产品信息、网页数据等。但是如何将数据存入Hadoop中呢?这就需要相应的数据收集系统。 Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种原创 2017-06-19 15:31:19 · 615 阅读 · 0 评论 -
走向云计算之Hive基本架构和使用详解
一、概述1、什么是HiveHive是由facebook开源,最初用于解决海量结构化的日志数据统计问题的一种ETL(Extraction-Transformation-Loading)工具。它是构建在Hadoop之上的数据仓库,数据计算使用MapReduce,数据存储使用HDFS。Hive 定义了一种类 SQL 查询语言——HQL,类似SQL,但不完全相同。Hive通常用于进行离线数据处理(采用Map原创 2017-06-18 21:45:50 · 1734 阅读 · 0 评论 -
走向云计算之Zookeeper简介和使用场景
一、概述Zookeeper是一个针对大型分布式系统的可靠协调系统;提供的功能包括:配置维护、名字服务、分布式同步、组服务等;目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户;Zookeeper已经成为Hadoop生态系统中的基础组件。ZooKeeper性能上的特点决定了它能够用在大型的、分布式的系统当中。从可靠性方面来说,它并不会因为一个节点的错误而崩溃。除此原创 2017-06-17 22:05:37 · 1189 阅读 · 0 评论 -
走向云计算之HBase实际案例分析
一、概述有时候了解软件产品的最好方法是看看它是怎么用的。它可以解决什么问题和这些解决方案如何适用于大型应用架构,能够告诉你很多。因为HBase有许多公开的产品部署,我们正好可以这么做。本章节将详细介绍一些人们成功使用HBase的使用场景。注意:不要自我限制,认为HBase只能解决这些使用场景。它是一个初生的技术,根据使用场景进行创新正驱动着系统的发展。如果你有新想法,认为可以受益于HBase提供的功转载 2017-06-17 17:25:54 · 1750 阅读 · 0 评论 -
走向云计算之HBase模式设计及表设计案例
一、概述HBase有以下几个特点:HBase列的可以动态增加,并且列为空就不存储数据,节省存储空间.hbase自动切分数据,使得数据存储自动具有水平scalability.Hbase可以提供高并发读写操作的支持。HBase不能支持条件查询,只支持按照Row key来查询.暂时不能支持Master server的故障切换,当Master宕机后,整个存储系统就会挂掉.因为HBa原创 2017-06-16 23:33:01 · 4438 阅读 · 0 评论 -
走向云计算之HBase的shell命令和JavaAPI详解
一、HBase的启动由上一篇可知,HBase是建立在Hadoop HDFS之上的,因此在启动HBase之前要确保已经启动了Hadoop,启动Hadoop的命令是:start-all.sh。在hadoop2.x中,启动hadoop推荐使用start-hdfs.sh和start-yarn.sh两个命令来代替start-all.sh。hadoop集群启动后,启动HBase使用命令:start-hbase.原创 2017-06-16 15:02:09 · 1470 阅读 · 0 评论 -
K-Means算法的Hadoop实现
一、MapReduce实现K-Means算法的基本流程1、Map每读取一条数据就与所有选定的中心做对比,求出该条记录对应的中心,然后以中心的ID为Key,该条数据为value将数据输出。2,利用reduce的归并功能将相同的Key归并到一起(因为map把中心的ID作为key,所以在reduce端时数据已经按照各自的中心分好了组,这是MapReduce框架自动完成的),集中与该Key对应的数原创 2017-07-09 19:47:18 · 8006 阅读 · 3 评论