【Hadoop】大数据时代，我们为什么使用hadoop

最新推荐文章于 2023-08-06 14:56:16 发布

置顶大牛笔记

最新推荐文章于 2023-08-06 14:56:16 发布

阅读量3.7k

点赞数 1

分类专栏： BigData

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixuehao/article/details/14126199

版权

BigData 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

我们先来看看大数据时代，

什么叫大数据，“大”，说的并不仅是数据的“多”！不能用数据到了多少TB ，多少PB 来说。

对于大数据，可以用四个词来表示：大量，多样，实时，不确定。

也就是数据的量庞大，数据的种类繁杂多样话，数据的变化飞快，数据的真假存疑。

大量：这个大家都知道，想百度，淘宝，腾讯，Facebook，Twitter等网站上的一些信息，这肯定算是大数据了，都要存储下来。

多样：数据的多样性，是说数据可能是结构型的数据，也可能是非结构行的文本，图片，视频，语音，日志，邮件等。

实时：大数据需要快速的，实时的进行处理。如果说对时间要求低，那弄几个机器，对小数据进行处理，等个十天半月的出来结果，这样也没有什么意义了。

不确定：数据是存在真伪的，各种各样的数据，有的有用，有的没用。很难辨析。

根据以上的特点，我们需要一个东西，来：

1存储大量数据

2快速的处理大量数据

3从大量数据中进行分析

于是就有了这样一个模型hadoop。

hadoop的历史就不说了。先来看看模型。

这就相当于一个生态系统，或者可以看成一个操作系统XP，win7.

HDFS和MapReduce为操作系统的核心，Hive，Pig，Mathout，Zookeeper，Flume，Sqoop，HBase等，都是操作系统上的一些软件，或应用。

HDFS：（Hadoop Distributed File System)，Hadoop分布式文件系统。从名字上就看出了它的两点功能。

基本功能，存文件，是一个文件系统；另外这个文件系统是分布式的；

从图上来看，HDFS的简单原理。

Rack1，Rack2，Rack3是三个机架；

1,2,3,4,5,6,7,8,9,10,11,12 是机架上的十二台服务器。

Block A, Block B, Block C为三个信息块，也就是要存的数据。

从整体布局上来看，信息块被分配到机架上。看似很均匀。这样分配的目的，就是备份，防止某一个机器宕机后，单点故障的发生。

MapReduce，（Map + Reduce），就看成是计算的功能。可以对数据进行处理。

它加快了计算。主要也是通过上图的布局。将数据分布到多个服务器上。当有任务了，比如查询，或者比较大小，先让每台服务器，都处理自己的存储中文件。然后再将所有服务器的处理结果进行第二次处理。最后将结果返回。

其实，hadoop还有一点好处，就是省钱。

框架开源的，免费的，服务器也不用特别牛X的。

省钱才是硬道理。

另外，从别的资料看到一种解释mapreduce的方式，很简单

Goal: count the number of books in the library.

Map: You count up shelf #1, I count up shelf #2.

(The more people we get, the faster this part goes. )

Reduce: We all get together and add up our individual counts.

博客园地址：http://www.cnblogs.com/laov/p/3401461.html

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
【Hadoop】大数据时代，我们为什么使用hadoop

我们先来看看大数据时代，什么叫大数据，“大”，说的并不仅是数据的“多”！不能用数据到了多少TB ，多少PB 来说。对于大数据，可以用四个词来表示：大量，多样，实时，不确定。也就是数据的量庞大，数据的种类繁杂多样话，数据的变化飞快，数据的真假存疑。大量：这个大家都知道，想百度，淘宝，腾讯，Facebook，Twitter等网站上的一些信息，这肯定算是大数据了，都要存储
复制链接

扫一扫

专栏目录

大牛笔记 CSDN认证博客专家 CSDN认证企业博客

码龄15年

16: 原创

24万+: 周排名

115万+: 总排名

6万+: 访问

: 等级

896: 积分

40: 粉丝

20: 获赞

18: 评论

11: 收藏

私信

关注

热门文章

分类专栏

Web 1篇
Java 2篇
DotNet 2篇
BigData 10篇
DataBase 1篇
ProjectManage 1篇

最新评论

查询MYSQL和查询HBASE速度比较
泪三国云无痕: 博主后面有什么提高写入速度的措施吗?
【Hadoop】用web查看hadoop运行状态
落叶子: [url=http://www.itxm.net/a/dashuju/2016/0610/279.html]程序员必须要知道的Hadoop的一些事实[/url]
【Hadoop】搭建完全分布式的hadoop
落叶子: [url=http://www.itxm.net/a/dashuju/2016/0610/279.html]程序员必须要知道的Hadoop的一些事实[/url]
【Hadoop】HDFS的运行原理
初涉大数据的小白: 博主，你好！按照你对流式写入的描述，我的理解是，Block1被分成若干份，每份都先后结果客户端、host2、host1，最后到了host3。这个过程中没有复制的动作发生。但是你有一句是“”通过写过程，我们可以了解到：写1T文件，我们需要3T的存储。”我实在没看出流式传递和这个3:1的存储比例有什么关系。
【Hadoop】HDFS的运行原理
初涉大数据的小白: 博主，你好！按照你对流式写入的描述，我的理解是，Block1被分成若干份，每份都先后结果客户端、host2、host1，最后到了host3。这个过程中没有复制的动作发生。但是你有一句是“”通过写过程，我们可以了解到：写1T文件，我们需要3T的存储。”我是在没看出流式传递和这个3:1的存储比例有什么关系。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。