大数据入门1：Hadoop基本介绍

最新推荐文章于 2019-12-05 23:50:28 发布

小叶真可爱

最新推荐文章于 2019-12-05 23:50:28 发布

阅读量752

点赞数

分类专栏：大数据入门文章标签： Hadoop BigData

本文链接：https://blog.csdn.net/weixin_43606502/article/details/103392173

版权

10 篇文章 8 订阅

订阅专栏

Hadoop：基本介绍

Hive和Pig是MapReduce之上的两个额外的编程模型，分别用关系代数和数据流建模来增强MapReduce的数据建模。
- Hive是在Facebook上创建的，用于在HDFS中对数据使用MapReduce发出类似sql的查询。
- Pig是在雅虎创建的，用于使用MapReduce对基于数据流的程序建模。由于YARN管理资源的稳定性，不仅为MapReduce，但其他编程模型提供服务。
为了有效地处理大规模的图形，建立了Giraph。例如，Facebook使用Giraph来分析其用户的社交图表。
Storm、Spark和Flink是基于YARN资源调度器和HDFS构建的，用于实时和大数据的内存处理。内存处理是一种更快速运行大数据应用程序的强大方法，在某些任务上实现了100x的更好性能。
NoSQL (Cassandra、MongoDB、HBase)，使用存储的文件和目录的模型来表示数据或处理任务有些麻烦。这样的例子包括大型稀疏表的几何和可信值。以上这些用来处理这种情况
Zookeeper：所有工具的集中管理系统，保证同步、配置和高可用性。

根据不同的需求选择不同的工具

关注