Hadoop的hdfs

最新推荐文章于 2022-03-30 09:37:10 发布

jone1024

最新推荐文章于 2022-03-30 09:37:10 发布

阅读量138

点赞数

分类专栏：统计与大数据 linux 文章标签：分布式大数据 hadoop mapreduce hdfs

原文链接：https://blog.csdn.net/qq_32649581/article/details/82892861

版权

统计与大数据同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

1、Hadoop是什么

实际应用：

（1）Flume+Logstash+Kafka+Spark Streaming进行实时日志处理分析

1.1、小故事版本的解释

小明接到一个任务：计算一个100M的文本文件中的单词的个数，这个文本文件有若干行，每行有若干个单词，每行的单词与单词之间都是以空格键分开的。对于处理这种100M量级数据的计算任务，小明感觉很轻松。他首先把这个100M的文件拷贝到自己的电脑上，然后写了个计算程序在他的计算机上执行后顺利输出了结果。

后来，小明接到了另外一个任务，计算一个1T（1024G）的文本文件中的单词的个数。再后来，小明又接到一个任务，计算一个1P(1024T)的文本文件中的单词的个数……

面对这样大规模的数据，小明的那一台计算机已经存储不下了，也计算不了这样大的数据文件中到底有多少个单词了。机智的小明上网百度了一下，他在百度的输入框中写下了：大数据存储和计算怎么办？按下回车键之后，出现了有关Hadoop的网页。

看了很多网页之后，小明总结一句话：Hadoop就是存储海量数据和分析海量数据的工具。

1.2、稍专业点的解释

Hadoop

Hadoop是由java语言编写的，在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架，其核心部件是HDFS与MapReduce。

HDFS是一个分布式文件系统：引入存放文件元数据信息的服务器Namenode和实际存放数据的服务器Datanode，对数据进行分布式储存和读取。
MapReduce是一个分布式计算框架：MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。通过对计算任务的拆分（Map计算/Reduce计算）再根据任务调度器（JobTracker）对任务进行分布式计算。

把HDFS理解为一个分布式的，有冗余备份的，可以动态扩展的用来存储大规模数据的大硬盘。

把MapReduce理解成为一个计算引擎，按照MapReduce的规则编写Map计算/Reduce计算的程序，可以完成计算任务。

HDFS文件系统和Linux文件系统、Windows文件系统可以类比并列

1.3、记住下面的话：

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

把HDFS理解为一个分布式的，有冗余备份的，可以动态扩展的用来存储大规模数据的大硬盘。

把MapReduce理解成为一个计算引擎，按照MapReduce的规则编写Map计算/Reduce计算的程序，可以完成计算任务。

2、Hadoop能干什么

大数据存储：分布式存储

日志处理：擅长日志分析

ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库

机器学习: 比如Apache Mahout项目

搜索引擎:Hadoop + lucene实现

数据挖掘：目前比较流行的广告推荐，个性化广告推荐

Hadoop是专为离线和大规模数据分析而设计的，并不适合那种对几个记录随机读写的在线事务处理模式。

（2）酷狗音乐的大数据平台

写在最后面的话，出来一个新技术，最好的学习方法是去看官方网站。

转载自:https://blog.csdn.net/qq_32649581/article/details/82892861

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。