分布式计算基础

最新推荐文章于 2022-05-23 18:41:28 发布

MautheDoog

最新推荐文章于 2022-05-23 18:41:28 发布

阅读量587

点赞数

分类专栏： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zw421152835/article/details/46627903

版权

hadoop 专栏收录该内容

24 篇文章 0 订阅

订阅专栏

数据采集：
flume NG
kafka

数据存储：
HDFS
HBase
Hive
Solr
Ealstic search

数据分析：
MapReduce
Storm
Spark
Hive
Pig
Mahout(数据挖掘)

数据展现：
Excel
R
D3

-----------------------
作者：doug cutting

为什么要用hadoop
单机系统操作不了，数据量太大。
有一个专门的文件系统管理，可以存放在多个服务器中，能屏蔽服务器之间的差异。
有数据结构能映射文件与文件位置的关系

客户端请求 --主节点---客户端得到存储位置---客户从节点中获取数据。

分布式系统
不同节点的数据可能属于同一个文件
命名空间(namespace):文件放在不同的文件夹中，文件夹一级一级包含，能组织众多文件，并管理整个服务器集群中的所有文件。

主节点(master node) 负责命名空间
从节点(slave node) 负责存储真实数据

当存储文件越多时，主节点需要的内存空间约大

副本(replication) 把数据同时备份到多个节点中，减少数据丢失和访问失败的概率

块(block) 独立的存储文件单位

------------------------------------
移动数据： tomcat --MySQL

移动代码：把程序放到节点中执行，后汇总计算。形成分段计算

分布式软件可以部署在同一个分布式硬件中。分布式软件：主从节点。分布式硬件：多个服务器。

存储策略：
一个一个存：
分开存：能并发，减少单个机器的压力。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分布式计算基础

数据采集： flume NG kafka 数据存储： HDFS HBase Hive Solr Ealstic search 数据分析： MapReduce Storm Spark Hive Pig Mahout(数据挖掘) 数据展现： Excel R D3 ------------------
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。