第一次接触大数据

1.
数据单位 B   KB   MB   GB   TB    PB   EB   ZB   YB  
     基数      2    2      2      2      2      2    2    10     10
     次方      0   10    20    30    40    50   60   21    24
关系是1024
2.
数据 
   公有:互联网
   私有:政府、个人、医院、电力、公路、交通;
3.
 数据收集(爬、抓数据)---存储---计算---分析挖掘---ETL(数据抽取、Transport转移、Load数据加载)---可视化---项目实战
4.
大数据特点:5v  variety(不同结构)、velocity(数据流量大)、volume(大容量)、variety(价值)、veracity(数据真实性);
5.
coludera(hadoop开发)
Hortonworks(hadoop正式发布公司)
MAPReduce(MP)
hadoop离线
spark在线离线都可以

6.                                                                                        *优势  
HIVE                                 *高级脚本式语言                       高度扩展能够存储和处理PB级数据

hadoop、mapreduce       *分布式处理框架分为               高可靠性采用冗余存储能够自恢复
                                           Map和Reduce两个阶段

hadoop   HDFS                 分布式文件存储数据分布在              灵活性可存储各类数据
                                          多个节点上自备份自恢复                 经济型采用普通PC开源软件

7.
大数据就业三个方向
       
        我们是大数据开发(主要是学会对框架技能的使用)              java + linux +SQL 考验的是对框架的使用
        也是职位最多的(数据工程师)                                 需要Java功底深厚

       集群监控运维保障(大数据运维工程师)                   linux 和监控报警手段  侧重linux和架构对java考                                                                                        察相对较弱
        数据挖掘(大数据算法工程师)  门槛高薪资高                  重算法能帮助做一些锦上添花的事情
8.
数据分片(一台存不下多台存储)
9.
H adoop分布式编程由
            分布式文件系统 HDFS
            资源分配系统    Yarn
            分布式运算框架 MapReduce
10.
Hadoop是      开源软件基金会开发
                       运行于大规模服务器上
                       大量存储、计算、分析
                       分布式存储和分布式框架(分布式是多个硬件和服务器同时工作);
11.
*mahout(驾驭大象的人)算法库 写自己的算法。做推荐的
*HBASE hadoop的补充是一个实时计算的的数据库
查询一条数据时间20ms-50ms;
*HIVE(蜂巢)仓库存数据用的;
bigtop(红房子)打包和编译的;
avro(带翅膀的三角)跨平台序列化和反序化的组件接口序列化开发工具;
序列化(内存和硬盘的相互传递);了解
zookepper(拿铁锹的人)分布式协调和管理用;
oozie(工作流)
pig()
flume(日志采集基础);
sqoop(ETL的工具);

Drill/Impala 内存SQL引擎,Dremel开源实现
BigTop:Hadoop生态系统打包分发与测试
Lucence:全文搜索引擎
Nutch:爬虫系统
Thrift:网络接口开发工具。

12.
论文3篇              是理论基础            
BigTable                                               HBase
Mapreduce                                           Mapreduce
GFS                                                       HDFS


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值