大数据入门

最新推荐文章于 2024-08-02 20:17:58 发布

yongganzhe02

最新推荐文章于 2024-08-02 20:17:58 发布

阅读量569

点赞数 4

分类专栏：大数据文章标签： big data hadoop

本文链接：https://blog.csdn.net/yongganzhe02/article/details/120033498

版权

大数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

文章目录

一、大数据内容地图：
二、华为大数据产品：
三、HDFS：分布式存储
四、MapReduce：方法框架平台
五、Yarn：改进MapReduce1.0，新的Hadoop的资源(CPU\内存)管理、任务调度
六、HBase：分布式数据库
七、Hive：数据仓库
八、Spark：计算引擎
九、Streaming（Storm）：实时计算框架
十、Flink：批处理流处理结合框架
十一、Loader：批量数据导入导出Hadoop
十二、Flume：流数据导入导出Hadoop，开源分布式日志系统
十三、Kafka：一个基于发布\订阅的消息系统，队列
十四、Zookeeper：分布式同步

一、大数据内容地图：

大（海量）数据的缺点：
不能代替领导决策力
不能完全替代专家
隐私问题\安全问题

Hadoop生态圈：
在这里插入图片描述

华为大数据FusionInsight：在这里插入图片描述

数据分析：
数据源：物联网、Java管理平台、爬虫、公司提供 –> 大数据平台
数据预处理：去重、缺失值处理
特征选择：业务打交道
模型建立：算法对比（分类和回归）
模型评估\保存：参数调优（云平台）
上线进行分析预测：可视化展示，大屏显示

学习步骤：
Step1：了解以下组件原理、简单命令
数据存储：Hadoop(HDFS)、Hbase
数据处理：
离线：MapReduce、Spark、Hive、SparkSQL
流处理：Flink、SparkStreaming
数据迁移：KafKa、Flume、Sqoop
数据预测：聚类、分类、回归
Step2：能够给出解决方案：
①离线分析的解决方案
②实时处理的解决方案
③实时搜索解决方案
④图数据库的解决方案
在这里插入图片描述

二、华为大数据产品：

在这里插入图片描述

FusionInsight
HD：一个分布式数据处理系统（安装）
MPPDB：高级算法
Miner：数据挖掘
Farmer：容器
Manager：监控管理（安装）

部署步骤：管理节点、数据节点、控制节点，至少3台
在这里插入图片描述
①准备电脑3台，通过交换机连同
②安装linux系统
③拷贝软件到每台机器中
④规划IP：管理IP和业务IP
⑤配置项手册（一个excel表格工具，基于华为大数据平台）生成配置文件,进行上传
⑥对每台虚拟机进行镜像挂载mount /opt/rhce-server-7.2-x86_64-dvd.iso /media/ -o loop
如出现 read-only 执行 yum -y install cifs-utils
⑦进入任意一台虚拟机，执行setuptools，进入解压目录，/opt/FusionInfight_SetupTool/preinstall
进行预安装，检查每台机器是否有问题
⑧分别进入相应的虚拟机，安装主备Manager
⑨在浏览器中安装集群

三、HDFS：分布式存储

组件：
NameNode：派出所，进行管理，存储、生成元数据（所有的元数据存储在内存中）
DataNode：每家每户，用于储存实际数据（硬盘存储）
Client：查询
在这里插入图片描述
高可靠：
ZKFC：心跳检测，主备切换
JN：记录同步元数据的改变日志
ZooKeeper：同步

在这里插入图片描述

四、MapReduce：方法框架平台

HDFS 解决数据存储的问题
MapReduce 处理键值对
在这里插入图片描述

map：

reduce：

五、Yarn：改进MapReduce1.0，新的Hadoop的资源(CPU\内存)管理、任务调度

在这里插入图片描述

六、HBase：分布式数据库

列存储\键值对
在这里插入图片描述

在这里插入图片描述

七、Hive：数据仓库

在这里插入图片描述
不需要学习MapReduce编程，而是直接使用SQL

在这里插入图片描述

八、Spark：计算引擎

Spark取代MapReduce计算引擎，基于内存，没有磁盘的I\O开销，适用于小数据，但对于大数据集不一定
Spark能共享中间计算数据，重复利用
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
DataSet、DataFrame、DataSet三种数据存储格式：

在这里插入图片描述

九、Streaming（Storm）：实时计算框架

在这里插入图片描述

十、Flink：批处理流处理结合框架

批处理：Spark、Spark Streaming，类比电梯
流处理：Streaming(Strom)、Flink，类比扶梯
在这里插入图片描述

在这里插入图片描述

十一、Loader：批量数据导入导出Hadoop

在这里插入图片描述

十二、Flume：流数据导入导出Hadoop，开源分布式日志系统

收集数据、处理数据、数据发送，实时日志采集但ms级别的不太行
采集日志到目的地（HDFS、HBase、Kafka），并将日志提供给上层应用去分析
在这里插入图片描述

十三、Kafka：一个基于发布\订阅的消息系统，队列

快递员和你一对一打电话 --> 菜鸟驿站和快递柜作为中转站
在这里插入图片描述

在这里插入图片描述

你家订阅了对应的快递柜，邻居也可以订阅。
一个partition定义，你家里，当你去拿了快递之后，其他人就不需要去拿了，因为如果你和家人都要去拿，那就会出现到底是谁拿了，拿了几个这种问题。

在这里插入图片描述

十四、Zookeeper：分布式同步

在这里插入图片描述
Streaming、HDFS、Yarn、HBase、

yongganzhe02

关注

4
点赞
踩
17

收藏

觉得还不错? 一键收藏
2
评论
大数据入门

一、走进大数据大(海量) 数据：Step1：了解以下组件原理、简单命令数据存储：Hadoop(HDFS)、Hbase数据处理：离线：MapReduce、Spark、Hive、SparkSQL流处理：Flink、SparkStreaming数据迁移：KafKa、Flume、Sqoop数据预测：聚类、分类、回归Step2：能够给出解决方案：①离线分析的解决方案②实时处理的解决方案③实时搜索解决方案④图数据库的解决方案...
复制链接

扫一扫

专栏目录