大数据技术概述__大数据最全面的技术栈总结及分类

姚华军

已于 2023-03-29 09:17:47 修改

阅读量1.4k

点赞数

分类专栏：大数据文章标签： Flink Spark Hadoop Hive Mapreduce

于 2022-06-19 17:44:59 首次发布

本文链接：https://blog.csdn.net/yhj_911/article/details/125359466

版权

大数据专栏收录该内容

16 篇文章 2 订阅

订阅专栏

大数据不是一门专门的技术，而是很多技术的综合应用。可以通过一些列大数据技术对海量数据进行分析，挖掘出数据背后的价值。
虽然大数据与Hadoop密切相关，但Hadoop并不等同于大数据，大数据也不是指Hadoop，大数据代表的是一种理念、一种解决问题的思维、一些列技术的集合，Hadoop只是其中一种具体的处理数据的技术框架，目前比较流行的Spark、Flink等实时计算框架也属于大数据技术。

1、数据获取

低侵入的浏览器探针技术采集用户浏览数据，使用爬虫技术获取网页技术，使用Canal采集MySQL数据库的binlog日志，使用组件Flume采集WEB服务器的日志。
一般采用Flume、Logstash、Filebeat等工具采集日志文件数据。采用Sqoop、Canal等工具采集数据库中的数据。

2、ETL工具

Kettle是pentaho公司开源的一款ETL工具，是java实现，其目的就是做数据整合中时数据的抽取（Extract）、转换（Transformat）、加载（Load）工作。
Kettle中有两种脚本文件，transformation和job，transformation完成针对数据的基础转换，job则完成整个工作流的控制。Transformation工作原理上采用并发流式处理，可采用集群分布式处理。
目前kettle支持很多中数据源，如：大多数市面上的数据库、文本文件、Excel、XML、Json文件等等，能够对抽取的数据做排序、分组、合并、行转列、列转行、字段合并和分隔、不同数据源间的连接（如数据库表那样）、数据库文件的导入导出等操作。另外还支持Hadoop上文件的读取和写入，以及HBase的输入输出；其中的TableInput组件还支持Hive数据的读写，是一款数据整合中不可多得的利器。

3、数据存储

大数据平台的调优很多情况下主要集中在对磁盘I/O的调优。
多数据并行读写，首要解决的是硬盘故障问题，最常用的方法是复制（replication），系统保存多个副本（replaca），一种方式是使用冗余磁盘阵列（RAID），另一种方式是Hadoop分布式文件系统（HDFS）,另外还有构建在HDFS之上的分布列式数据库（HBase）,其可以提供实时的多维分析。
实时计算项目中，经常需要使用Kafka消息队列作为实时的数据中转服务。

4、资源管理

资源管理的本质是集群、数据中心级别资源的统一管理和分配。其中多租户、弹性伸缩、动态分配是资源管理系统要解决的和信问题。
为了提高集群资源利用率、解决资源共享问题，YARN应用而生。实际应用中，一般会将各种大数据处理框架部署到YARN集群中（Mapreduce on YARN、Spark on YARN、Flink on YARN）。

5、大数据处理核心

5.1、数据处理

离线处理即批处理：MapReduce、Spark Core、Flink DateSet。
实时处理即流处理：Spark Streaming、Flink DataStream。

5.2、交互式分析

实际引用中，经常需要对离线或实时处理后的历史数据，根据不同的条件进行多维分析查询并及时返回结果，这是旧需要交互式分析。
在大数据领域，交互式查询通常用于实时报表分析、实时大屏、在线话单查询等。
主要是基于SQL on Hadoop，SQL on Hadoop是一个泛化的概念，是指Hadoop生态圈中一系列支撑SQL接口和技术，譬如Hive SQL、Spark SQL。