大数据
基本单位:
1T = 1024G
1P = 1024T
1E = 1024P
1Z = 1024E
1Y = 1024Z
1B = 1024Y
1N = 1024B
1D = 1024N
1. 定义
无法在一定时间范围内使用 常规软件工具进行捕捉,管理 和处理的数据集合。
存储问题: 海量数据存储----分布式存储
计算问题:海量数据计算----Hadoop Spark
廉价计算机组成集群,分散存储数据。
特点
大 多 值 快 信
大:数量体积大 目前 5EB 企业都达到E级了
多:种类多,结构化,半结构化,非结构化数据(从左到右,越来越乱)
来源杂。
值: 大海捞针。选出优秀价值的数据。(密度低->密度高,价值低->价值高)
快:数据增长快,处理速度快。
离线分析 + 在线分析(实时分析)
信: 数据的准确性 和 可信赖度,数据质量可靠。
2.分析步骤
1. 明确分析 目的 和 思路
2. 数据收集 (1手/2手数据 爬虫)
3. 数据处理 (清洗 转换 提取 计算)
4. 数据展现
5. 报告填写
数据分析工具:
mysql hive hbase kudu redis
大数据典型部门架构:
ETL 把收集过来的数据 编程可以用的数据
Hive 数仓建模 主用 sql语句
数据挖掘:和算法相关
强调数学能力
后续知识整理:
Linux系统
Mysql数据库
ETL框架