大数据的理解,大数据技术Hadoop和HDFS的基本介绍

一、大数据

(一)概念:

指的是传统数据处理应用软件不足以处理(存储和计算)它们大而复杂的数据集。

(二)数据级别:

1.MB:普通用户数据级别

2.PB:企业级数据级别

3.ZB:全球数据总量级别

(三)特点:

容量大,种类多,速度快,价值高

(四)Hadoop

1.概念:Apache旗下的一套开源软件平台

2.功能:利用服务式集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理

3.核心组件:

Common(基础功能组件)(工具包,RPC框架)JNDI和RPC

HDFS(HadoopDistributeFileSystem分布式文件系统)

YARN(YetanotherResoucesNegotiator运算资源调度系统)

MapReduce(Map和Reduce分布式运算编程框架)

4.重点组件:

HDFS:Hadoop的分布式文件存储系统

MapReduce:Hadoop的分布式程序运算框架,也可以叫做一种编程模型

Hive:基于Hadoop的类SQL数据仓库工具

HBase:基于Hadoop的列式分布式NoSQL数据库

ZooKeeper:分布式协调服务组件

Mahout:基于MapReduce/Flink/Spark等分布式运算框架的机器学习算法库

Oozie/Azkaban:工作流调度引擎

Sqoop:数据迁入迁出工具

Flume:日志采集工具

5.分布式系统:

利用多个节点共同协作完成一项或多项具体业务功能的系统

(五)HDFS原理剖析

1.HDFS工作机制:

(1)概述:

1)HDFS集群分为两大主要角色:namenode、datanode(secondarynamenode和client)

2)namenode负责管理整个文件系统的元数据,并且负责响应客户端的请求

3)datanode负责管理用户的文件数据块,并且通过心跳机制汇报给namenode

4)文件会按照固定的大小(dfs.blocksize)切成若干块后分布式存储在若干台datanode上

5)每一个文件块可以有多个副本,并存放在不同的datanode上

6)datanode会定期向namenode汇报自身所保存的文件block信息,而namenode则会负责保持文件的副本数量

7)HDFS的内部工作机制对客户端保持透明,客户端请求访问HDFS都是通过向namenode申请来进行

人工智能、大数据、云计算和物联网的未来发展值得重视,均为前沿产业,多智时代专注于人工智能和大数据的入门和科谱,在此为你推荐几篇优质好文:
1.在学习大数据之前,需要具备什么基础
http://www.duozhishidai.com/article-12916-1.html
2.大数据工程师培训,需要学习的有哪些课程?
http://www.duozhishidai.com/article-15081-1.html
3.大数据的特点是什么,大数据与Hadoop有什么关系?
http://www.duozhishidai.com/article-13276-1.html


多智时代-人工智能大数据学习入门网站|人工智能、大数据、物联网云计算的学习交流网站

多智时代-人工智能大数据学习入门网站|人工智能、大数据、云计算、物联网的学习服务的好平台
展开阅读全文

没有更多推荐了,返回首页