Hadoop
大数据私房菜
这个作者很懒,什么都没留下…
展开
-
HDFS HA机制 及 Secondary NameNode详解
1Secondary NameNodeSecondary namenode的职责是合并namenode的edit logs到fsimage文件中。每隔一段时间,会由secondary namenode将namenode上积累的所有edits和一个最新的fsimage下载到本地,并加载到内存进行merge(这个过程称为checkpoint)namenode和secondary namenode的工作目录存储结构完全相同,所以,当namenode故障退出需要重新恢复时,可以从...原创 2020-12-01 13:58:12 · 1179 阅读 · 1 评论 -
yarn杀掉进程及查看日志
杀进程yarn application -kill application_id查看日志yarnlogs -applicationIdapplication_id原创 2020-03-20 22:48:43 · 1512 阅读 · 0 评论 -
Hadoop快速入门
目录1 Hadoop背景介绍1.1 什么是Hadoop1.2 Hadoop产生背景1.3 Hadoop在大数据,云计算中的位置和关系1.4 Hadoop生态圈以及各组成部分的简介2 分布式系统概述2.1 分布式软件系统(Distributed Software Systems)2.2 分布式软件系统举例3 离线数据分析流程介绍3.1 需求分析3.1...原创 2018-08-20 07:08:21 · 920 阅读 · 0 评论 -
一文带你走进HDFS的世界
目录1 HDFS前言2 HDFS的概念和特性3 HDFS的shell(命令行客户端)操作3.1 HDFS命令行客户端使用3.2命令行客户端支持的命令参数3.2 常用命令参数介绍4 HDFS的工作机制4.1 概述4.2 HDFS写数据流程4.2.1 概述4.2.2 详细步骤图4.2.3 详细步骤解析4.3 HDFS读数据流程4.3.1...原创 2018-08-23 09:36:47 · 1005 阅读 · 0 评论 -
学习MapReduce?这一篇就够了
目录1 MapReduce原理1.1 为什么要MapReduce1.2 MapReduce框架结构及核心运行机制1.2.1 结构1.2.2 MR程序运行流程1.3 MapTask并行度决定机制1.3.1 mapTask并行度的决定机制1.3.2 FileInputFormat切片机制1.4 ReduceTask并行度的决定1.5MapReduce程序演...原创 2018-09-01 08:18:08 · 19262 阅读 · 13 评论 -
Spark-on-Yarn
目录1 Spark-on-Yarn1.1 配置安装1.1.1 安装hadoop环境1.1.2 同步系统时间1.1.3 spark配置1.2 运行模式(cluster模式和client模式)1.3 原理1.4 总结SparkOnYarn2 Spark-HA集群1 Spark-on-Yarnyarn是hadoop中的一个组件,统一的资源调度平台。spar...原创 2018-10-09 11:17:02 · 937 阅读 · 0 评论 -
数据仓库架构及模型设计基础
注:本文所有内容摘自《Hadoop构建数据仓库实践》1.数仓架构1.1数据集市架构数据集市是按主题域组织的数据集合,用于支持部门级的决策。有两种类型的数据集市:独立数据集市和从属数据集市。独立数据集市集中于部门所关心的单一主题域,数据以部门为基础部署,无须考虑企业级别的信息共享与集成。例如,制造部门、人力资源部门和其他部门都各自有他们自己的数据集市。独立数据集市从一个主题域或一个部...原创 2019-06-26 21:58:18 · 10346 阅读 · 1 评论