1、hadoop解决两个方面的问题:
(1)解决海量数据的存储问题,用到HDFS分布式存储系统,HDFS利用多台机器的存储空间进行存储。
(2)解决海量数据的运算问题,用到MapReduce分布式编程框架,MapReduce利用多台机器的运算程序进行运算。
2、hadoop组成:
(1)HDFS分布式文件系统,对海量数据进行存储;
(2)MapReduce分布式运算编程框架;
(3)Yarn:资源调度系统和任务监控平台;检验机器的运算资源,并进行合理分配,分布式任务监控;
(4)comments:工具,hadoop的底层技术支持,写好了现成的工具类等。
注:为什么需要平台?
举个例子:这里有四台机器,用这四台机器统计一下a.txt中a出现的次数。现在,把a.txt分成四份,分配到四台机器中进行处理。机器之间的核心数、内存有大有小都不尽相同,大的在十秒钟能够完成,内存小、核心数少的五分钟才能完成。那这时,就需要有一个平台来对这四台机器进行资源的调度分配,这四台机器定时向平台汇报自己的内存占用、可用资源等,让平台进行合理的分配,以达到提高效率、节省开发时间的目的。
hadoop特点与组成
最新推荐文章于 2022-08-16 17:35:11 发布