Hadoop学习六个板块
1.入门
2.HDFS
3.MapReduce
4.Yarn
5.生产调优
6.Hadoop源码解析
Hadoop学习的版本 3.1.3
学习前置基础:
- JavaSE
- Maven
- IDEA
- Linux
1.大数据概念
无法在短时间内使用常规软件进行 捕获、管理、处理的数据集合;
庞大的数据集需要新的处理模式才能转变为信息资产,从而使得公司具备更强的决策力,洞察力、流程优化能力
海量、高增长率、多样化的信息资产
(1)数据量单位
bit byte KB MB GB TB PB EB ZB YB BB NB DB
大数据的处理范围:TB PB EB级别
大厂数据量 EB级别
(2)大数据要解决的问题
海量数据的 采集 、存储 、计算的问题
2.大数据特点
1.大量
人类所有印刷材料数据量约200PB
人类总共说过的话数据量大约5EB
个人计算机硬盘存储TB级别
大企业数据量能够达到EB级别
大量: 大数据的存储问题
2.高增长率
数据增长率高,因此数据的处理效率 要求高
高增长率:实时快速计算问题
3.数据格式多样
数据格式分为结构化数据和非结构化数据
结构化数据:数据库、文本
非结构化数据:网络日志、音频、视频、图片
格式多样化:海量数据的采集问题
4.价值密度低
数据量很大,但是有效数据小
低密度:ETL
3.大数据应用场景
1.推荐用户喜欢的内容
抖音推送的视频、电商的猜你喜欢
2.分析用户消费习惯
3.物流仓储
城市购买特点,配置仓储内容
4.保险
5.金融
4.大数据发展前景
1.党和政府的支持
2. 5G风口
3. 人才紧缺
5. 大数据程序员工作日常
(1)产品经理提出一些指标需求
(2)BI部门搭建数据平台、分析数据指标
(3)对数据指标进行可视化报表
将分析的结果数据写到Mysql,让前端程序员读走进行可视化展示
BI部门组织架构
(1)平台组
- 搭建集群环境
- 集群监控
- 集群性能调优
(2)数仓组
- ETL 数据清洗
- 数仓建模(★)
(3)实时组
- 实时指标分析
- 实时计算性能调优
(4)数据挖掘组(算法组)
- 算法工程师(智能推荐)
- 用户画像(对用户打标签,通过标签对用户进行分群,然后对不同群体推送不同的广告、优惠券)
(5)报表开发组
- JavaEE工程师
- 前端工程师
负责开发一些报表工具、数据的可视化展示