Hadoop简易知识理论

最新推荐文章于 2022-10-11 18:17:18 发布

尤子介

最新推荐文章于 2022-10-11 18:17:18 发布

阅读量242

点赞数

分类专栏： BigData

本文链接：https://blog.csdn.net/weixin_46546447/article/details/114699076

版权

BigData 专栏收录该内容

19 篇文章 0 订阅

订阅专栏

前言

    ：Hadoop是基于Google的集群系统理论来进行的开源实现 
    ：Google的集群系统：GFS. MapReduce. BigTable
    ：Hadoop的集群系统：HDFS. MapReduce. Hbase

概述

     	Hadoop设计的初衷是为了解决Nutch的海量数据存储和处理的需求，可以解决大数据
     场景下的数据存储和处理的问题。一开始HDFS和MapReduce是作为Nutch的两个主件来 使用
     后来发现这两个组件不只是可以用在Nutch搜索，所以就单独取出来组成了Hadopp。

     注意的是：Hadoop处理是离线数据，即在数据已知以及不要求实时性的场景下使用。

最根本的原理

	 利用大量的计算机同时运算来加快大量数据的处理速度

优点

     一个Hadoop集群可以高效地存储数据，分配处理任务
     可以降低计算机的建造和维护成本
     一旦任何一个计算机出现硬件故障，不会对整个计算机系统造成致命的影响
     （因为面向应用层开发的集群框架本身就必须假定计算机会出现故障）

组成

  主要是由 HDFS 和 MapReduce 组成
	HDFS：用于分布式文件的存储（负责存储数据）
	MapReduce：用于数据的计算（负责对数据进行映射，规约处理，并汇总处理结果）
	
	Yarn：进行任务调度。

传统数据库的特点

    1.GB,TB级别的数据
 	2.数据增长不快
	3.主要为结构化的数据
	4.统计和报表

大数据的特点

	1.TB,PB级别的数据
	2.持续的高速增长
	3.半结构化，非结构化的数据
	4.数据挖掘的预测性分析
	5.海量和数据的获取，存储，聚合，管理这些数据以及
							对数据进行深度分析的新技术和新能力

Hadoop的安装

	单击方式
	伪分布式方式
	完全分布式方法

尤子介

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录