Hadoop集群搭建方式
Standalone mode(单机模式):单机模式,1个机器上运行HDFS的NameNode和DataNode、YARN的 ResourceManger和NodeManager,主要用于学 习和调试。
Cluster mode(集群模式):集群模式主要用于生产环境部署。会使用N台主机组成一个Hadoop集群。这种部署模式下,主节点和从节点会分开部署 在不同的机器上。
注意,在不同模式下要求Windows系统运行内存不一样,单机模式至少是8G,集群模式至少是16G
Hadoop集群的使用
- 集群的一键启动和关闭,以及查看启动进程(jps)
- Hadoop集群启动并运行,可以通过web-ui进行集群查看(HDFS;YARN;已经finished的mapreduce运行日志)
- 运用MapReduce程序(评估圆周率π(PI);单词词频统计WordCount;单词词频统计WordCount)
HDFS的概述
HDFS是Apache Hadoop 项目的一个子项目,使用HDFS作为存储系统。
分布式文件系统解决大数据存储的问题。
HDFS虽然可以存储超大文件,但是时效性差,它只能一次写入,不能够随机修改,它可以在普通廉价的机器上运行
HDFS有Namenode和Datanode两个重要角色它有四个基本组件。其中Namenode是主管,DataNode是执行实际操作 的
HDFS的Shell命令
一些基本的命令学习如ls,mkdir,mv,rm,cp,cat,put,get
Hadoop和Hive有紧密的联系
Hive是建立在Hadoop之上的一种数据仓库工具。Hadoop的HDFS为Hive提供了数据存储的基础,而Hadoop的MapReduce则可以被Hive用来数据处理。Hive使用SQL语言来操作分析数据,它使得对大规模数据得处理和分析变得更加方便高效。