大数据概述

       大数据集群是包含数据传输、存储、查询、分析等功能的数据平台。其实我们的大数据集群依赖各个大数据组件,例如,传输功能依赖于kafka集群;存储依赖于HbaseElasticsearch;查询依赖于SparkSQLHbaseElasticsearch;分析以及任务依赖于Sparkhadoop。本文将从数据采集、消息队列、数据存储、数据分析四个方面对相关组件做介绍,使各位初步了解大数据环境的各个组件功能,为大家对大数据集群开发和维护提供便利。

       本文的各小节为一个组件介绍,其中包含组件的架构、组件运行原理、组件部署、组件的应用实例及组件简单总结等相关知识,其中组件小节部分包含有相似功能的组件对比。

        本文主要分为四个模块:数据采集模块,该模块主要包含FlumeLogstash组件介绍。该模块组件主要用于日志的收集、数据采集、数据初步转换等功能;消息队列,该模块主要包含kafka组件介绍。该模块组件主要用于接受分布式集群大量的消息数据,通过消息队列具有服务间解耦、降低服务端压力的优点;数据存储,该模块主要包含HDFSHbaseHiveElasticsearch组件介绍。该模块组件虽然都用于大数据存储,但其对实时查询、海量数据存储等功能各有不同;大数据分析计算模块,该模块主要包含HadoopSpark组件,主要讲解了其各自的特点。

      另,组件在企业应用中大部分都是多个组件相互配合使用的,以适用于现实的环境需求,例如,Flume+Hadoop/spark+Hbase/Hive实现数据采集->数据清洗->核心数据存储等功能;Logstash+Elasticsearch+kibana则是企业常用的日志采集、存储、分析系统;Hdfs +Hadoop/spark+hive则多被用来作为海量数据的数据仓库;Hbase+ Elasticsearch则常用于实时查询分析需求的大数据的存储。由于文章篇幅有限,不对各个组件的配合使用做进一步说明,感兴趣的同学可自行研究。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值