hadoop使用场景

最新推荐文章于 2024-02-26 11:23:27 发布

yangck1992

最新推荐文章于 2024-02-26 11:23:27 发布

阅读量408

点赞数

分类专栏： hadoop 文章标签： hadoop

hadoop 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

hadoop比较擅长的是数据密集的并行计算。它主要是对不同的数据做相同的事情，最后再整合。

wordCount ；
文档倒排索引；
PageRank；
K-Means 算法；

hadoop主要应用于数据量大的离线场景。特征为：

1、数据量大。一般真正线上用Hadoop的，集群规模都在上百台到几千台的机器。这种情况下，T级别的数据也是很小的。Coursera上一门课了有句话觉得很不错：Don’t use hadoop, your data isn’t that big

2、离线。Mapreduce框架下，很难处理实时计算，作业都以日志分析这样的线下作业为主。另外，集群中一般都会有大量作业等待被调度，保证资源充分利用。

3、数据块大。由于HDFS设计的特点，Hadoop适合处理文件块大的文件。大量的小文件使用Hadoop来处理效率会很低。

海量数据、一次写入多次读取、非高实时性要求的场景，都适合用hadoop处理

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop使用场景

hadoop使用场景
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。