hdfs
yc_hen
为了让明天的我 超越昨天的我,所以今天的我需要努力
展开
-
HDFS-HDFS的设计理念
HDFS简介首先,什么是HDFS呢?HDFS,即hadoop distributed file system(hadoop分布式文件系统),在非正式文档或旧文档及配置文件中,有时也简称DFS,这都是一样的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX(Portable Operating...原创 2019-01-24 12:57:47 · 946 阅读 · 1 评论 -
HDFS-伪分布搭建
文章目录伪分布安装步骤(1)开启sudo(2)修改主机名(3)配置静态IP(4)配置主机与IP的映射(5)修改配置文件(可参照官网)(6)设置免密登录(ssh)(7)初始化namenode伪分布安装步骤(1)开启sudo方便起见,我们在使用linux系统配置伪分布前,可以先配置一下sudo。其作用为,为了单次使用root权限切换到root用户编辑/etc/sudoers复制一次roo...原创 2019-01-16 13:59:03 · 394 阅读 · 0 评论 -
HDFS-完全分布式搭建(从伪分布到完全分布式)
请先搭建[伪分布式]文章目录1、克隆虚拟机2、修改主机名3、修改ip地址4、修改ip和主机映射5、验证ssh6、配置hadoop配置文件7、初始化hdfs1、克隆虚拟机关闭要克隆的虚拟机(否则无法进行克隆操作)克隆两台机器选中要克隆的虚拟机->管理->克隆->下一步->下一步->创建完成克隆->下一步->起虚拟机名字->完成2、修改主机名...原创 2019-01-16 15:28:22 · 677 阅读 · 1 评论 -
HDFS-HDFS体系架构
一、体系架构HDFS 采用的是master/slaves主从结构模型来管理数据,这种结构模型主要由四个部分组成:Client(客户端)、Namenode(名称节点)、Datanode(数据节点)和SecondaryNamenode(第二名称节点,辅助Namenode)。一个真正的HDFS集群包括一个Namenode和若干数目的Datanode。Namenode是一个中心服务器,负责管理文件系统...原创 2019-02-08 11:11:02 · 4184 阅读 · 0 评论 -
HDFS-剖析文件写入(写流程)
写流程解析public static void main(String[] args) throws Exception { //加载本地指定目录下的文件 InputStream is = new BufferedInputStream(new FileInputStream("D:/123/word.txt")); //获取配置文件 Configuration ...原创 2019-02-10 15:39:20 · 551 阅读 · 0 评论 -
HIVE-Hive的简单概述
什么是Hive?Hive是一种构建数据仓库的工具。里面有表的概念。在Mysql里从表中插入的数据,会放在磁盘上。再打开这个表的时候,会把磁盘上的数据规整到一个表格里显示。但是计算机不会自己规整成表格,所以在Hive中需要一份元数据这份元数据包括:元数据(行的分隔符(这样在映射成表的时候知道能映射成几行)字段分隔符(这样在映射成表的时候知道能映射成几列)字段的类型字段的名称)...原创 2019-02-17 10:19:11 · 278 阅读 · 0 评论 -
HIVE-Hive搭建
文章目录Hive安装mysql安装hiveserver2搭建与可视化客户端安装Hive安装先决条件java1.7及以上hadoop 2.X以上下载地址http://archive.apache.org/dist/hive/下载版本:1.2.1 上传到linux系统并解压tar -zxvf apache-hive-xxxxx创建软连接ln -s apache-hive-1.2...原创 2019-02-17 10:54:20 · 525 阅读 · 0 评论 -
HDFS-HA搭建(基于完全分布式)
hadoop HA(高可用)Quorum Journal Manager:以共享活动和备用NameNode之间的编辑日志影响了HDFS集群(导致namenode发生故障)对于计划外事件(例如计算机崩溃),在操作员重新启动NameNode之前,群集将不可用。计划维护事件(如NameNode计算机上的软件或硬件升级)将导致群集停机时间窗口。注意:必须至少有3个JournalNode守护进程...原创 2019-02-12 14:32:07 · 426 阅读 · 1 评论