大数据00

大数据

基本单位:
1T = 1024G
1P = 1024T
1E = 1024P
1Z = 1024E
1Y = 1024Z
1B = 1024Y
1N = 1024B
1D = 1024N

1. 定义

无法在一定时间范围内使用 常规软件工具进行捕捉,管理 和处理的数据集合。
存储问题: 海量数据存储----分布式存储
计算问题:海量数据计算----Hadoop Spark

廉价计算机组成集群,分散存储数据。

特点

大 多 值 快 信
大:数量体积大 目前 5EB 企业都达到E级了
多:种类多,结构化,半结构化,非结构化数据(从左到右,越来越乱)
来源杂。
值: 大海捞针。选出优秀价值的数据。(密度低->密度高,价值低->价值高)
快:数据增长快,处理速度快。
离线分析 + 在线分析(实时分析)
信: 数据的准确性 和 可信赖度,数据质量可靠。

2.分析步骤

1. 明确分析 目的 和 思路
2. 数据收集 (1手/2手数据 爬虫)
3. 数据处理 (清洗 转换 提取 计算)
4. 数据展现
5. 报告填写

数据分析工具:
mysql hive hbase kudu redis

大数据典型部门架构:
在这里插入图片描述
ETL 把收集过来的数据 编程可以用的数据
Hive 数仓建模 主用 sql语句

数据挖掘:和算法相关
强调数学能力

后续知识整理:
Linux系统
Mysql数据库
ETL框架

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值