Hadoop
不务正业的土豆
知行合一 止于行善
展开
-
Hadoop(6)-Sqoop简介及安装配置
一 Sqoop简介 Sqoop是Hadoop和关系数据库服务器之间传送数据的一种工具。它是用来从关系数据库如:MySQL,Oracle到Hadoop的HDFS,并从Hadoop的文件系统导出数据到关系数据库。 Sqoop:“SQL 到 Hadoop 和 Hadoop 到SQL”。 传统的应用管理系统,也就是与关系型数据库的使用RDBMS应用程序的交互,是产生大数据的来源之一。这样大的数据,由关原创 2017-09-03 10:48:43 · 1557 阅读 · 0 评论 -
Hadoop(5)-HA(High Available)高可用性机制
1 简介 1.1 HDFS HA背景 在hadoop2.0之前,namenode只有一个,HDFS集群中NameNode 存在单点故障(SPOF)。对于只有一个NameNode的集群,如果NameNode机器出现意外情况,将导致整个集群无法使用,直到NameNode 重新启动。 影响HDFS集群不可用主要包括以下两种情况: 一是NameNode机器宕机,将导致集群不可用,重启NameNode原创 2017-09-02 22:25:09 · 1297 阅读 · 0 评论 -
Hadoop(4)-MapReduce原理
1. MapReduce 定义 Hadoop中的 MapReduce是一个使用简单的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错式并行处理TB级别的数据集 2. MapReduce 特点 MapReduce 之所以如此受欢迎,它主要有以下几个特点。: - MapReduce 易于编程。它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程原创 2017-08-09 15:54:03 · 743 阅读 · 0 评论 -
Hadoop(3)-Yarn集群
一、Yarn简介Yarn是Hadoop集群的资源管理系统。Hadoop2.0对MapReduce框架做了彻底的设计重构,我们称Hadoop2.0中的MapReduce为MRv2或者Yarn。在介绍Yarn之前,我们先回头看一下Hadoop1.x对MapReduce job的调度管理方式(可参考:Hadoop核心之MapReduce架构设计),它主要包括两部分功能: 1. ResourceManag原创 2017-08-09 15:34:47 · 1391 阅读 · 0 评论 -
Hadoop(4-3)-MapReduce程序案例-统计每一年最高温度
一、软件环境 我使用的软件版本如下: 1. Intellij Idea 2017.1二、创建maven工程及配置 2.1创建工程 打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建Java工程即可,不用勾选Creat from archetype,如果想创建web工程或者使用骨架可以勾选) 创建完成后以及运行结束后目录原创 2017-08-10 21:19:15 · 4596 阅读 · 0 评论 -
Hadoop(4-2)-MapReduce程序案例-WordCount(Intellij Idea环境)
一、软件环境 我使用的软件版本如下: 1. Intellij Idea 2017.1二、创建maven工程及配置 2.1创建工程 打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建Java工程即可,不用勾选Creat from archetype,如果想创建web工程或者使用骨架可以勾选) 创建完成后以及运行结束后目录原创 2017-08-10 00:00:26 · 2601 阅读 · 0 评论 -
Hadoop(4-1)-MapReduce程序案例-统计销售商品数量
1.问题陈述: 找出销往各个国家商品数量。 输入: 我们的畋输入数据集合是一个 CSV 文件, Sales2014.csv 输出:国家名 销往次国家的商品数量 商品信息如图所示 2.前提条件: • 本教程是在Linux上开发 • 已经安装了Hadoop(本教程使用版本2.6.5) • 系统上已安装了Java(本教程使用 JDK1.8.0)。 3.步骤原创 2017-08-09 21:07:15 · 8449 阅读 · 3 评论 -
Hadoop(3-2)- Yarn 调度器Scheduler详解
理想情况下,我们应用对Yarn资源的请求应该立刻得到满足,但现实情况资源往往是有限的,特别是在一个很繁忙的集群,一个应用资源的请求经常需要等待一段时间才能的到相应的资源。在Yarn中,负责给应用分配资源的就是Scheduler。其实调度本身就是一个难题,很难找到一个完美的策略可以解决所有的应用场景。为此,Yarn提供了多种调度器和可配置的策略供我们选择。一、调度器的选择在Yarn中有三种调度器可以选原创 2017-08-09 15:49:03 · 813 阅读 · 0 评论 -
Hadoop(3-1)- Yarn 内存分配管理机制及相关参数配置
理解Yarn的内存管理与分配机制,对于我们搭建、部署集群,开发维护应用都是尤为重要的,对于这方面我做了一些调研供大家参考。 关于Yarn的详细介绍请参考【Hadoop(3)-Yarn集群 】一、相关配置情况关于Yarn内存分配与管理,主要涉及到ResourceManage、ApplicationMatser、NodeManager这几个概念,相关的优化也要紧紧围绕着这几方面来开展。这里还有一个Co原创 2017-08-09 15:41:36 · 1521 阅读 · 0 评论 -
Hadoop(2)-HDFS
概述:HDFS即Hadoop Distributed File System分布式文件系统,它的设计目标是把超大数据集存储到分布在网络中的多台普通商用计算机上,并且能够提供高可靠性和高吞吐量的服务。分布式文件系统要比普通磁盘文件系统复杂,因为它要引入网络编程,分布式文件系统要容忍节点故障也是一个很大的挑战。一、设计前提和目标 1. 专为存储超大文件而设计:hdfs应该能够支持GB级别大小的原创 2017-08-09 15:20:38 · 728 阅读 · 0 评论 -
Hadoop(1)-完全分布式集群搭建
HADOOP集群搭建 1. 集群搭建 1.1 HADOOP集群搭建 1.1.1集群简介 HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起 HDFS集群: 负责海量数据的存储,集群中的角色主要有 NameNode / DataNode YARN集群: 负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /N原创 2017-02-14 12:32:33 · 871 阅读 · 0 评论