1、Hadoop是什么?
狭义的Hadoop:是一个适合大数据分布式存储(HDFS)、分布式计算(MapReduce)和资源调度(YARN)的平台
广义的Hadoop:指的是Hadoop生态系统,Hadoop生态系统是一个很庞大的概念,Hadoop是其中最重要最基础的一部分;
生态系统中每一个子系统只能解决某一个特定的问题域;不会去搞统一型的一个全能系统,而是小而精的多个小系统
2、Hadoop的核心组件?
HDFS(Hadoop Distributed File System):分布式文件系统
特点:存储海量的数据&扩展性&容错性
YARN(Yet another Resource Negotiator):资源调度系统,负责整个集群资源的管理和调度。
特点:扩展性&容错性&多框架资源统一调度
MapReduce:分布式计算框架,实现任务的分解和调度
特点:扩展性&容错性&海量数据的离线处理
3、Hadoop可以用来做什么?
搭建大型数据仓库,PB级的数据存储、处理、分析、统计等业务
比如:搜索引擎、商业智能、数据挖掘、日志分析
4、Hadoop的优势?
①高可靠性
数据存储:数据块多副本
数据计算:重新调度作业计算
②高扩展性
存储/计算资源不够时,可以横向的线性扩展机器
一个集群中可以包含数以千计的节点
③成本低
④成熟的生态圈
5、Hadoop的生态系统
Hive:将SQL语句转化为Hadoop任务去执行,极大降低了使用Hadoop的门槛
HBase:
存储结构化数据的分布式数据库,放弃了事务的特性,追求更高的扩展
它提供数据的随机读写和实时访问,实现对表数据的读写功能