0. 导学
大数据:数据量非常大,数据的背后意味着的是价值
存在的两个重要问题?
- 海量数据如何存储?
分布式存储 Hadoop hdfs(分布式文件系统)
- 海量数据如何计算?
分布式计算 Hadoop mapreduce(分布式运算编程框架)
- 集群资源任务调度?
yarn (作业调度和集群资源管理的框架)
分布式:多台机器一起做一件事情
大数据是一个发展的趋势
学习之旅必须从Hadoop开始,将为后续工作打下坚实基础
主要是对Hadoop的核心 三大框架进行学习
如何学?
更多的是动手,写程序,梳理流程图
1. 大数据概念
目前数据存储单位已经进化到非常快的节奏
计量单位已经非常多,常规软件无法再一定时间进行记录和计算处理
根据分析大数据得到数据的价值和规律
CCTTV《大数据时代纪录片》
2. 大数据的特点
5V特征
- volume体积大
- variety种类来源多样化
- value低价值密度
- velocity速度快
- Veracity数据的质量
半结构化数据
:JSON,HTML,xml数据
不同于结构化数据
3. 大数据的应用场景
- 电商
- 传媒
- 金融
- 医疗
4. 大数据业务分析基本步骤
围绕着核心:数据
数据从哪里来,数据到哪里去
大数据应该干什么
数据收集-数据处理-数据分析-数据展现
5. 分布式技术
一个硬件或者软件组件分布在不同的网络计算机上
- 彼此之间通过消协传递进行通信
- 一群相互独立计算机集合共同对外提供服务
- 对于系统用户来说,就像是一台计算机在提供服务
6. 分布式和集群
- 分布式distributed
- 多台机器
- 每台机器上部署不同的组件
- 集群cluster
- 多台机器
- 每台机器上部署相同的组件
集群的时候要进行负载均衡,明确要使用哪个服务器
搭建分布式的Hadoop集群
评估指标
- 伸缩性
- 负载均衡(多个一起处理)
- 故障处理
7. Hadoop概述
是Apache开发的Java的开源软件,与其说是软件,不如说是框架和平台
- HDFS:Hadoop的分布式文件系统 大数据存储
- YARN:解决资源任务调度
- MAPREDUCE:解决大数据的计算问题
广义来说,它更是一个大数据生态圈
创作之父Doug Cutthing
Hadoop特性优点
- 扩容能力
- 成本低
- 效率高
- 可靠性高
Hadoop发行版本
- 开源社区版本
- 商业发行版本