入门级,Hadoop详情教程(一)

本文深入介绍Hadoop大数据处理框架,涵盖Hadoop概念、特性及其与传统数据库的区别。详细解析Hadoop核心组件HDFS、YARN及MapReduce的工作原理,包括分布式文件系统HDFS的架构、YARN资源管理机制及MapReduce并行运算流程。

大数据简介

(1)概念
①无法在一定的时间内通过常规软件进行抓取,管理和处理的数据
②解决海量数据的存储和计算问题
在这里插入图片描述
(2)特性
数量大Volume,增长快Velocity,种类多Variety,价密低Value
(3)固有特性
时效性,不可变性
(4)分布式计算:
①传统分布式:
1)多数据节点-copy data->单计算节点 master
2)特点:数据量小,受限于单体计算节点CPU性能
3)提升方法:提升单体计算机的运算能力
②hadoop分布式:
1)都具有存储和运算功能节点-copy computed result from single node->汇总计算节点
2)特点:数据量大,受单体计算节点影响小
3)提升方法:扩展低成本集群

Hadoop

(1)概念
开源分布式计算框架
(2)hadoop生态圈
在这里插入图片描述
(3)为什么使用大数据?
①高扩展性:添加数据节点
②高可靠性:多个数据备份
③高容错性:失败任务重新分配
④低成本:允许部署在低价机器上
(4)普通关系型数据库和Hadoop的区别
在这里插入图片描述

Hadoop框架(1)

hdfs dfs命令

注意:在集群里面的任何一个节点执行 hdfs dfs -之类的命令,使用的是主节点或者从节点,否则使用的就是客户端,客户端是不包括在我们的hadoop集群中的
hdfs dfs -ls / 查看目

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值