黑马程序员学习第二天

本文详细介绍了Hadoop集群的两种模式(单机和集群),涉及配置需求、一键启动/关闭、HDFS功能、Shell命令以及Hadoop与Hive的关系,帮助读者理解Hadoop在大数据处理中的作用。
摘要由CSDN通过智能技术生成

Hadoop集群搭建方式

  Standalone mode(单机模式):单机模式,1个机器上运行HDFS的NameNode和DataNode、YARN的 ResourceManger和NodeManager,主要用于学 习和调试。

  Cluster mode(集群模式):集群模式主要用于生产环境部署。会使用N台主机组成一个Hadoop集群。这种部署模式下,主节点和从节点会分开部署 在不同的机器上。

注意,在不同模式下要求Windows系统运行内存不一样,单机模式至少是8G,集群模式至少是16G

Hadoop集群的使用

  • 集群的一键启动和关闭,以及查看启动进程(jps)
  • Hadoop集群启动并运行,可以通过web-ui进行集群查看(HDFS;YARN;已经finished的mapreduce运行日志)
  • 运用MapReduce程序(评估圆周率π(PI);单词词频统计WordCount;单词词频统计WordCount)

HDFS的概述

  HDFS是Apache Hadoop 项目的一个子项目,使用HDFS作为存储系统。

  分布式文件系统解决大数据存储的问题。

  HDFS虽然可以存储超大文件,但是时效性差,它只能一次写入,不能够随机修改,它可以在普通廉价的机器上运行

  HDFS有Namenode和Datanode两个重要角色它有四个基本组件。其中Namenode是主管,DataNode是执行实际操作 的

HDFS的Shell命令

  一些基本的命令学习如ls,mkdir,mv,rm,cp,cat,put,get

Hadoop和Hive有紧密的联系

  Hive是建立在Hadoop之上的一种数据仓库工具。Hadoop的HDFS为Hive提供了数据存储的基础,而Hadoop的MapReduce则可以被Hive用来数据处理。Hive使用SQL语言来操作分析数据,它使得对大规模数据得处理和分析变得更加方便高效。

  

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值