Hadoop的入门

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/wz1997/article/details/83186192

1、Hadoop是什么?

狭义的Hadoop:是一个适合大数据分布式存储(HDFS)、分布式计算(MapReduce)和资源调度(YARN)的平台

广义的Hadoop:指的是Hadoop生态系统,Hadoop生态系统是一个很庞大的概念,Hadoop是其中最重要最基础的一部分;

生态系统中每一个子系统只能解决某一个特定的问题域;不会去搞统一型的一个全能系统,而是小而精的多个小系统

2、Hadoop的核心组件?

HDFS(Hadoop Distributed File System):分布式文件系统   

特点:存储海量的数据&扩展性&容错性

YARN(Yet another Resource Negotiator):资源调度系统,负责整个集群资源的管理和调度。

特点:扩展性&容错性&多框架资源统一调度

MapReduce:分布式计算框架,实现任务的分解和调度

特点:扩展性&容错性&海量数据的离线处理

3、Hadoop可以用来做什么?

搭建大型数据仓库,PB级的数据存储、处理、分析、统计等业务

比如:搜索引擎、商业智能、数据挖掘、日志分析

4、Hadoop的优势?

①高可靠性

数据存储:数据块多副本

数据计算:重新调度作业计算

②高扩展性

存储/计算资源不够时,可以横向的线性扩展机器

一个集群中可以包含数以千计的节点

③成本低

④成熟的生态圈

5、Hadoop的生态系统

Hive:将SQL语句转化为Hadoop任务去执行,极大降低了使用Hadoop的门槛

HBase:

存储结构化数据的分布式数据库,放弃了事务的特性,追求更高的扩展

它提供数据的随机读写和实时访问,实现对表数据的读写功能

 

展开阅读全文

没有更多推荐了,返回首页