【Hadoop】【第一章】认识大数据

Hadoop学习六个板块

1.入门
2.HDFS
3.MapReduce
4.Yarn
5.生产调优
6.Hadoop源码解析


Hadoop学习的版本 3.1.3

学习前置基础:

  • JavaSE
  • Maven
  • IDEA
  • Linux

1.大数据概念

无法在短时间内使用常规软件进行 捕获、管理、处理的数据集合;
庞大的数据集需要新的处理模式才能转变为信息资产,从而使得公司具备更强的决策力,洞察力、流程优化能力

海量、高增长率、多样化的信息资产

(1)数据量单位

bit byte KB MB GB TB PB EB ZB YB BB NB DB
大数据的处理范围:TB PB EB级别
大厂数据量 EB级别

(2)大数据要解决的问题

海量数据的 采集 、存储 、计算的问题

2.大数据特点

1.大量

人类所有印刷材料数据量约200PB
人类总共说过的话数据量大约5EB
个人计算机硬盘存储TB级别
大企业数据量能够达到EB级别

大量: 大数据的存储问题

2.高增长率

数据增长率高,因此数据的处理效率 要求高

高增长率:实时快速计算问题

3.数据格式多样

数据格式分为结构化数据和非结构化数据
结构化数据:数据库、文本
非结构化数据:网络日志、音频、视频、图片

格式多样化:海量数据的采集问题

4.价值密度低

数据量很大,但是有效数据小
低密度:ETL

3.大数据应用场景

1.推荐用户喜欢的内容
抖音推送的视频、电商的猜你喜欢
2.分析用户消费习惯
3.物流仓储
城市购买特点,配置仓储内容
4.保险
5.金融

4.大数据发展前景

1.党和政府的支持
在这里插入图片描述
2. 5G风口
在这里插入图片描述
3. 人才紧缺
在这里插入图片描述

5. 大数据程序员工作日常

(1)产品经理提出一些指标需求
(2)BI部门搭建数据平台、分析数据指标
(3)对数据指标进行可视化报表
将分析的结果数据写到Mysql,让前端程序员读走进行可视化展示

BI部门组织架构

(1)平台组

  • 搭建集群环境
  • 集群监控
  • 集群性能调优

(2)数仓组

  • ETL 数据清洗
  • 数仓建模(★)

(3)实时组

  • 实时指标分析
  • 实时计算性能调优

(4)数据挖掘组(算法组)

  • 算法工程师(智能推荐)
  • 用户画像(对用户打标签,通过标签对用户进行分群,然后对不同群体推送不同的广告、优惠券)

(5)报表开发组

  • JavaEE工程师
  • 前端工程师
    负责开发一些报表工具、数据的可视化展示
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值