大数据概述

最新推荐文章于 2019-11-27 21:09:02 发布

yinbiao123456

最新推荐文章于 2019-11-27 21:09:02 发布

阅读量702

点赞数

分类专栏：大数据相关介绍

本文链接：https://blog.csdn.net/yinbiao123456/article/details/86530582

版权

大数据相关介绍专栏收录该内容

10 篇文章 0 订阅

订阅专栏

大数据集群是包含数据传输、存储、查询、分析等功能的数据平台。其实我们的大数据集群依赖各个大数据组件，例如，传输功能依赖于kafka集群；存储依赖于Hbase、Elasticsearch；查询依赖于SparkSQL、Hbase、Elasticsearch；分析以及任务依赖于Spark、hadoop。本文将从数据采集、消息队列、数据存储、数据分析四个方面对相关组件做介绍，使各位初步了解大数据环境的各个组件功能，为大家对大数据集群开发和维护提供便利。

本文的各小节为一个组件介绍，其中包含组件的架构、组件运行原理、组件部署、组件的应用实例及组件简单总结等相关知识，其中组件小节部分包含有相似功能的组件对比。

本文主要分为四个模块：数据采集模块，该模块主要包含Flume和Logstash组件介绍。该模块组件主要用于日志的收集、数据采集、数据初步转换等功能；消息队列，该模块主要包含kafka组件介绍。该模块组件主要用于接受分布式集群大量的消息数据，通过消息队列具有服务间解耦、降低服务端压力的优点；数据存储，该模块主要包含HDFS、Hbase、Hive、Elasticsearch组件介绍。该模块组件虽然都用于大数据存储，但其对实时查询、海量数据存储等功能各有不同；大数据分析计算模块，该模块主要包含Hadoop、Spark组件，主要讲解了其各自的特点。

另，组件在企业应用中大部分都是多个组件相互配合使用的，以适用于现实的环境需求，例如,Flume+Hadoop/spark+Hbase/Hive实现数据采集->数据清洗->核心数据存储等功能；Logstash+Elasticsearch+kibana则是企业常用的日志采集、存储、分析系统；Hdfs +Hadoop/spark+hive则多被用来作为海量数据的数据仓库；Hbase+ Elasticsearch则常用于实时查询分析需求的大数据的存储。由于文章篇幅有限，不对各个组件的配合使用做进一步说明，感兴趣的同学可自行研究。

yinbiao123456

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
大数据概述

大数据集群是包含数据传输、存储、查询、分析等功能的数据平台。其实我们的大数据集群依赖各个大数据组件，例如，传输功能依赖于kafka集群；存储依赖于Hbase、Elasticsearch；查询依赖于SparkSQL、Hbase、Elasticsearch；分析以及任务依赖于Spark、hadoop。本文将从数据采集、消息队列、数据存储、数据分析四个方面对相关组件做介绍，使各位初步了解大...
复制链接

扫一扫