大数据入门

一、大数据内容地图:

大(海量)数据的缺点
不能代替领导决策力
不能完全替代专家
隐私问题\安全问题

Hadoop生态圈
在这里插入图片描述

华为大数据FusionInsight在这里插入图片描述

数据分析
数据源:物联网、Java管理平台、爬虫、公司提供 –> 大数据平台
数据预处理:去重、缺失值处理
特征选择:业务打交道
模型建立:算法对比(分类和回归)
模型评估\保存:参数调优(云平台)
上线进行分析预测:可视化展示,大屏显示

学习步骤
Step1:了解以下组件原理、简单命令
数据存储:Hadoop(HDFS)、Hbase
数据处理:
离线:MapReduce、Spark、Hive、SparkSQL
流处理:Flink、SparkStreaming
数据迁移:KafKa、Flume、Sqoop
数据预测:聚类、分类、回归
Step2:能够给出 解决方案:
①离线分析的解决方案
②实时处理的解决方案
③实时搜索解决方案
④图数据库的解决方案
在这里插入图片描述

二、华为大数据产品:

在这里插入图片描述
在这里插入图片描述
FusionInsight
HD:一个分布式数据处理系统(安装)
MPPDB:高级算法
Miner:数据挖掘
Farmer:容器
Manager:监控管理(安装)

部署步骤:管理节点、数据节点、控制节点 ,至少3台
在这里插入图片描述
①准备电脑3台,通过交换机连同
②安装linux系统
③拷贝软件到每台机器中
④规划IP:管理IP和业务IP
⑤配置项手册(一个excel表格工具,基于华为大数据平台)生成配置文件,进行上传
⑥对每台虚拟机进行镜像挂载mount /opt/rhce-server-7.2-x86_64-dvd.iso /media/ -o loop
如出现 read-only 执行 yum -y install cifs-utils
⑦进入任意一台虚拟机,执行setuptools,进入解压目录,/opt/FusionInfight_SetupTool/preinstall
进行预安装,检查每台机器是否有问题
⑧分别进入相应的虚拟机,安装主备Manager
⑨在浏览器中安装集群

三、HDFS:分布式存储

组件:
NameNode:派出所,进行管理,存储、生成元数据(所有的元数据存储在内存中)
DataNode:每家每户,用于储存实际数据(硬盘存储)
Client:查询
在这里插入图片描述
高可靠:
ZKFC:心跳检测,主备切换
JN:记录同步元数据的改变日志
ZooKeeper:同步
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

四、MapReduce:方法框架平台

HDFS 解决数据存储的问题
MapReduce 处理键值对
在这里插入图片描述
在这里插入图片描述
map:
在这里插入图片描述
reduce:
在这里插入图片描述
在这里插入图片描述

五、Yarn:改进MapReduce1.0,新的Hadoop的资源(CPU\内存)管理、任务调度

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

六、HBase:分布式数据库

列存储\键值对
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

七、Hive:数据仓库

在这里插入图片描述
不需要学习MapReduce编程,而是直接使用SQL在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

八、Spark:计算引擎

Spark取代MapReduce计算引擎,基于内存,没有磁盘的I\O开销,适用于小数据,但对于大数据集不一定
Spark能共享中间计算数据,重复利用
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
DataSet、DataFrame、DataSet三种数据存储格式:
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

九、Streaming(Storm):实时计算框架

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

十、Flink:批处理流处理结合框架

批处理:Spark、Spark Streaming,类比电梯
流处理:Streaming(Strom)、Flink,类比扶梯
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

十一、Loader:批量数据导入导出Hadoop

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

十二、Flume:流数据导入导出Hadoop,开源分布式日志系统

收集数据、处理数据、数据发送,实时日志采集但ms级别的不太行
采集日志到目的地(HDFS、HBase、Kafka),并将日志提供给上层应用去分析
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

十三、Kafka:一个基于发布\订阅的消息系统,队列

快递员和你一对一打电话 --> 菜鸟驿站和快递柜作为中转站
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
你家订阅了对应的快递柜,邻居也可以订阅。
一个partition定义,你家里,当你去拿了快递之后,其他人就不需要去拿了,因为如果你和家人都要去拿,那就会出现到底是谁拿了,拿了几个这种问题。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

十四、Zookeeper:分布式同步

在这里插入图片描述
Streaming、HDFS、Yarn、HBase、
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 4
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值