大数据简介
(1)概念
①无法在一定的时间内通过常规软件进行抓取,管理和处理的数据
②解决海量数据的存储和计算问题
(2)特性
数量大Volume,增长快Velocity,种类多Variety,价密低Value
(3)固有特性
时效性,不可变性
(4)分布式计算:
①传统分布式:
1)多数据节点-copy data->单计算节点 master
2)特点:数据量小,受限于单体计算节点CPU性能
3)提升方法:提升单体计算机的运算能力
②hadoop分布式:
1)都具有存储和运算功能节点-copy computed result from single node->汇总计算节点
2)特点:数据量大,受单体计算节点影响小
3)提升方法:扩展低成本集群
Hadoop
(1)概念
开源分布式计算框架
(2)hadoop生态圈
(3)为什么使用大数据?
①高扩展性:添加数据节点
②高可靠性:多个数据备份
③高容错性:失败任务重新分配
④低成本:允许部署在低价机器上
(4)普通关系型数据库和Hadoop的区别
Hadoop框架(1)
hdfs dfs命令
注意:在集群里面的任何一个节点执行 hdfs dfs -
之类的命令,使用的是主节点或者从节点,否则使用的就是客户端,客户端是不包括在我们的hadoop集群中的
hdfs dfs -ls /
查看目