大数据技术介绍：01大数据概述

最新推荐文章于 2024-04-29 10:10:21 发布

兰海泽

最新推荐文章于 2024-04-29 10:10:21 发布

阅读量2.6w

点赞数 12

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zejunwzj/article/details/86747736

版权

大数据技术介绍：01大数据概述
大数据技术框架：
在这里插入图片描述

Hadoop生态系统（1）
在这里插入图片描述

Hadoop生态系统（2）
在这里插入图片描述

Hadoop构成:Flume（非结构化数据收集）：
Cloudera开源的日志收集系统
用于非结构化数据收集
Flume特点
分布式
高可靠性
高容错性
易于定制与扩展

日志收集工具：flume
在这里插入图片描述

Hadoop构成:Sqoop（结构化数据收集）

在这里插入图片描述
Sqoop：SQL-to-Hadoop
连接传统关系型数据库和Hadoop 的桥梁
把关系型数据库的数据导入到Hadoop 系统( 如HDFS,HBase 和Hive) 中；
把数据从Hadoop 系统里抽取并导出到关系型数据库里。
利用MapReduce加快数据传输速度
批处理方式进行数据传输

Hadoop构成：HDFS（分布式文件系统）
源自于Google的GFS论文,发表于2003年10月
HDFS是GFS克隆版

HDFS特点:
良好的扩展性。
高容错性。
适合PB级以上海量数据的存储。

基本原理：
将文件切分成等大的数据块，存储到多台机器上
将数据切分、容错、负载均衡等功能透明化
可将HDFS看成一个容量巨大、具有高容错性的磁盘

应用场景：
海量数据的可靠性存储
数据归档

Hadoop构成：YARN（资源管理系统）
YARN是什么
Hadoop 2.0新增系统
负责集群的资源管理和调度
使得多种计算框架可以运行在一个集群中
YARN的特点
良好的扩展性、高可用性
对多种类型的应用程序进行统一管理和调度
自带了多种多用户调度器，适合共享集群环境

如下图：图1，图2

最低0.47元/天解锁文章

关注

12
点赞
踩
103

收藏

觉得还不错? 一键收藏
2
评论
大数据技术介绍：01大数据概述

大数据技术框架：Hadoop生态系统（1）Hadoop生态系统（2）Hadoop构成:Flume（非结构化数据收集）：Cloudera开源的日志收集系统用于非结构化数据收集Flume特点分布式高可靠性高容错性易于定制与扩展日志收集工具：flumeHadoop构成:Sqoop（结构化数据收集）Sqoop：SQL-to-Hadoop连接传统关系型数据库和Hadoo...
复制链接

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。