![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
yuanyinxiaing
这个作者很懒,什么都没留下…
展开
-
Hadoop入门
Hadoop是ApacheSoftware Foundation的一个顶级Apache项目。它是构建于一个分布式集群文件系统之上的计算环境,专门针对非常大型的数据操作而设计。 Hadoop的灵感来自于Google在其Google(分布式)File System(GFS) 和MapReduce编程模式上的工作,在该模式上,工作被分解为多个mapper和reducer任务,以操作在整个服务器集群中存原创 2013-07-29 21:50:32 · 497 阅读 · 0 评论 -
MapReduce
Hadoop实现了MapReduce分布式计算模型。MapReduce将应用程序的工作分解成很小的工作块。HDFS为了做到可靠性,创建了多份数据块的复制,并将它们放置在服务器群做的计算节点中,MapReduce就可以在它们所在的节点上处理这些数据。 Map负责将数据打散,Reduce负责对数据进行聚集,用户只需要实现map和reduce两个接口,即可完成TB级数据的计算,常见的包括日志分析和数据原创 2013-07-29 22:05:19 · 536 阅读 · 0 评论 -
分布式文件系统HDFS
HDFS即HadoopDistributed File System (Hadoop分布式文件系统),Hadoop实现一个分布式文件系统(HDFS),HDFS有着高容错性的特点,并且用来设计部署在廉价的硬件上。它提供高吞吐量来访问数据,适合那些大量数据的应用程序。HDFS可以以流的形式访问文件系统中的数据。 HDFS具有高容错性,并且可以被部署在低价的硬件设备之上。HDFS很适合那些原创 2013-07-29 21:59:38 · 767 阅读 · 0 评论 -
Hive基础
Hive是基于Hadoop构建的一套数据仓库分析系统,它提供丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据。Hive将数据存储在数据仓库中,通过自己的SQL去查询分析数据内容,这套SQL简称HiveSQL。它与关系型数据库的SQL略有不同,但支持绝大多数的语句,如DDL、DML以及常见的聚合函数、连接查询、条件查询。 Hive主要包括以下几个部分: 1) 用户接原创 2013-07-29 22:22:34 · 521 阅读 · 0 评论