1.大数据按服务模式分为IaaS,PaaS,SaaS,DaaS
IaaS:infrastructure as a service 基础架构,网盘,EC2,阿里云主机
PaaS:platform as a service 平台即服务,Google Appspot,百度BAE
SaaS:Soft as a service 软件即服务,搜索引擎,地图,电子商务
Daas:Data as aservice 数据服务
2.HADOOP2.0概述
HDFS(Hadoop Distributed File System):
分布式存储系统
提供低成本的巨大存储能力及高冗余度的可靠性
Map-Ruduce:
提供快速并行计算的能力,可以随着节点的增加线性递增
HBase:
一个分布式的、面向列的开源数据库
YARN(Yet Another Resource Negotiator):
负责集群资源的统一管理和调度
3.HDFS的介绍:
优点:高容错性(数据自动保存多个副本,副本丢失自动恢=恢复)
适合批量处理( 移动计算而非数据,数据位置暴露给计算框架)
适合大数据处理(TB,PB级的数据,百万规模以上的文件数量,10K+节点)
流式文件访问 (一次写入,可多次读取,确保数据的一致性)
可构建在廉价机器上 (通过多副本提高可靠性,有容错和恢复机制)
缺点和不足:
不适合低延迟数据访问 (比如毫秒级的访问要求 低延迟与高吞吐率的权衡)
不适合小文件存取 (占用NameNode大量内存 寻道时间超过读取时间)
不适合并发写入、文件随机修改 (一个文件只能有一个Writer 仅支持append写入)
5. HDFS访问方式 -- HDFS Shell命令
HDFS访问方式 – HDFS文件操作命令
删除文件/目录
bin/hadoop fs -rmr /hdfs/data
创建目录
bin/hadoop fs -mkdir /hdfs/data