文章目录
一、大数据内容地图:
大(海量)数据的缺点:
不能代替领导决策力
不能完全替代专家
隐私问题\安全问题
Hadoop生态圈:
华为大数据FusionInsight:
数据分析:
数据源:物联网、Java管理平台、爬虫、公司提供 –> 大数据平台
数据预处理:去重、缺失值处理
特征选择:业务打交道
模型建立:算法对比(分类和回归)
模型评估\保存:参数调优(云平台)
上线进行分析预测:可视化展示,大屏显示
学习步骤:
Step1:了解以下组件原理、简单命令
数据存储:Hadoop(HDFS)、Hbase
数据处理:
离线:MapReduce、Spark、Hive、SparkSQL
流处理:Flink、SparkStreaming
数据迁移:KafKa、Flume、Sqoop
数据预测:聚类、分类、回归
Step2:能够给出 解决方案:
①离线分析的解决方案
②实时处理的解决方案
③实时搜索解决方案
④图数据库的解决方案
二、华为大数据产品:
FusionInsight
HD:一个分布式数据处理系统(安装)
MPPDB:高级算法
Miner:数据挖掘
Farmer:容器
Manager:监控管理(安装)
部署步骤:管理节点、数据节点、控制节点 ,至少3台
①准备电脑3台,通过交换机连同
②安装linux系统
③拷贝软件到每台机器中
④规划IP:管理IP和业务IP
⑤配置项手册(一个excel表格工具,基于华为大数据平台)生成配置文件,进行上传
⑥对每台虚拟机进行镜像挂载mount /opt/rhce-server-7.2-x86_64-dvd.iso /media/ -o loop
如出现 read-only 执行 yum -y install cifs-utils
⑦进入任意一台虚拟机,执行setuptools,进入解压目录,/opt/FusionInfight_SetupTool/preinstall
进行预安装,检查每台机器是否有问题
⑧分别进入相应的虚拟机,安装主备Manager
⑨在浏览器中安装集群
三、HDFS:分布式存储
组件:
NameNode:派出所,进行管理,存储、生成元数据(所有的元数据存储在内存中)
DataNode:每家每户,用于储存实际数据(硬盘存储)
Client:查询
高可靠:
ZKFC:心跳检测,主备切换
JN:记录同步元数据的改变日志
ZooKeeper:同步
四、MapReduce:方法框架平台
HDFS 解决数据存储的问题
MapReduce 处理键值对
map:
reduce:
五、Yarn:改进MapReduce1.0,新的Hadoop的资源(CPU\内存)管理、任务调度
六、HBase:分布式数据库
列存储\键值对
七、Hive:数据仓库
不需要学习MapReduce编程,而是直接使用SQL
八、Spark:计算引擎
Spark取代MapReduce计算引擎,基于内存,没有磁盘的I\O开销,适用于小数据,但对于大数据集不一定
Spark能共享中间计算数据,重复利用
DataSet、DataFrame、DataSet三种数据存储格式:
九、Streaming(Storm):实时计算框架
十、Flink:批处理流处理结合框架
批处理:Spark、Spark Streaming,类比电梯
流处理:Streaming(Strom)、Flink,类比扶梯
十一、Loader:批量数据导入导出Hadoop
十二、Flume:流数据导入导出Hadoop,开源分布式日志系统
收集数据、处理数据、数据发送,实时日志采集但ms级别的不太行
采集日志到目的地(HDFS、HBase、Kafka),并将日志提供给上层应用去分析
十三、Kafka:一个基于发布\订阅的消息系统,队列
快递员和你一对一打电话 --> 菜鸟驿站和快递柜作为中转站
你家订阅了对应的快递柜,邻居也可以订阅。
一个partition定义,你家里,当你去拿了快递之后,其他人就不需要去拿了,因为如果你和家人都要去拿,那就会出现到底是谁拿了,拿了几个这种问题。
十四、Zookeeper:分布式同步
Streaming、HDFS、Yarn、HBase、