1.
数据单位 B KB MB GB TB PB EB ZB YB
基数 2 2 2 2 2 2 2 10 10
次方 0 10 20 30 40 50 60 21 24
关系是1024
2.
数据
公有:互联网
私有:政府、个人、医院、电力、公路、交通;
3.
数据收集(爬、抓数据)---存储---计算---分析挖掘---ETL(数据抽取、Transport转移、Load数据加载)---可视化---项目实战
4.
大数据特点:5v variety(不同结构)、velocity(数据流量大)、volume(大容量)、variety(价值)、veracity(数据真实性);
5.
coludera(hadoop开发)
Hortonworks(hadoop正式发布公司)
MAPReduce(MP)
hadoop离线
spark在线离线都可以
6.
*优势
HIVE *高级脚本式语言 高度扩展能够存储和处理PB级数据
hadoop、mapreduce *分布式处理框架分为 高可靠性采用冗余存储能够自恢复
Map和Reduce两个阶段
hadoop HDFS 分布式文件存储数据分布在 灵活性可存储各类数据
多个节点上自备份自恢复 经济型采用普通PC开源软件
7.
大数据就业三个方向
我们是大数据开发(主要是学会对框架技能的使用) java + linux +SQL 考验的是对框架的使用
也是职位最多的(数据工程师) 需要Java功底深厚
集群监控运维保障(大数据运维工程师) linux 和监控报警手段 侧重linux和架构对java考 察相对较弱
数据挖掘(大数据算法工程师) 门槛高薪资高 重算法能帮助做一些锦上添花的事情
8.
数据分片(一台存不下多台存储)
9.
H
adoop分布式编程由
分布式文件系统 HDFS
资源分配系统 Yarn
分布式运算框架 MapReduce
10.
Hadoop是 开源软件基金会开发
运行于大规模服务器上
大量存储、计算、分析
分布式存储和分布式框架(分布式是多个硬件和服务器同时工作);
11.
*mahout(驾驭大象的人)算法库 写自己的算法。做推荐的
*HBASE hadoop的补充是一个实时计算的的数据库
查询一条数据时间20ms-50ms;
*HIVE(蜂巢)仓库存数据用的;
bigtop(红房子)打包和编译的;
avro(带翅膀的三角)跨平台序列化和反序化的组件接口序列化开发工具;
序列化(内存和硬盘的相互传递);了解
zookepper(拿铁锹的人)分布式协调和管理用;
oozie(工作流)
pig()
sqoop(ETL的工具);
Drill/Impala 内存SQL引擎,Dremel开源实现
BigTop:Hadoop生态系统打包分发与测试
Lucence:全文搜索引擎
Nutch:爬虫系统
Thrift:网络接口开发工具。
12.
论文3篇 是理论基础
BigTable HBase
Mapreduce Mapreduce
GFS HDFS