大数据(一)概述

1、什么是大数据?

使用传统数据库工具不能够进行抓取、管理和处理的工具集。

2、大数据4V特性

volume:体量大。
variety:数据类型多样。
velocity:实时性要求高。
value:大量数据聚合能产生巨大价值,但价值密度较低。

3、大数据挑战

能够收集、存储并统计分析出有价值的数据;
如何构建安全简单可用的系统。

4、大数据应用

金融经济、城市交通、医疗卫生、教育、安全反恐等等。

5、Hadoop

Hadoop是什么?
Hadoop是apache开发的能运行在大量普通服务器上的、用于大数据存储、分析和计算的、分布式数据库存储系统和分布式运算框架。
组成?
hdfs:分布式存储系统;
Yarn:资源管理系统;
mapreduce:分布式运算框架。
命名:
以作者儿子的大象毛绒玩具名字命名。

6、Hadoop生态

zookeeper:分布式服务注册与发布中心,起分布式协调调度的功能。
hbase:提供结构化的数据存储功能。
hive:提供结构化的查询语言。
sqoop:一种etl工具。
flume:数据流收集工具。
oozie:工作流引擎。
impala:内存SQL引擎。

7、hdfs

组成:
NameNode:是中心服务器,维护分布式文件系统的namespace和负责客户端对系统的访问。
DataNode:数据块服务器,负责数据块的维护及与NameNode的信息同步。
client:外部和系统交互的入口。
工作过程:
客户端向NameNode发起请求,NameNode返回DataNode节点列表,客户端选取DataNode节点访问操作。

8、Yarn

组成:
client:客户端;
Resource Manager:全局资源管理器;
Nodemanager:每个节点的资源和任务管理器;
ApplicationMaster:应用管理器。
工作原理:
客户端向yarn提交应用程序;
resourceManager创建一个container抽象资源,并和container所在nodeManager通信要求其启动对应的applicationMaster;
AM监听请求resourcesmanager的资源;
请求到后通知nodeManager启动相关任务;
执行完毕后AM和RM通信,要求注销自己。

9、HBase

组成:
HMaster:管理用户对表的增删改查以及HRegionServer的负载均衡。
HRegionServer:管理维护HRegion对象。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值