一.分布式
1.分布式是指将不同的业务分布在不同的地方。 而集群指的是将几台服务器集中在一起,实现同一业务。
2.分布式是以缩短单个任务的执行时间来提升效率的,而集群则是通过提高单位时间内执行的任务数来提升效率。
二.cap理论
C(Consistency一致性):所有的节点上的数据时刻保持同步
A(Availability可用性):每个请求都能接受到一个响应,无论响应成功或失败
P(Partition tolerance 分区容错):系统应该能持续提供服务,即使系统内部有消息丢失(分区)
三.hadoop的基本组件
1.hdfs(hadoop distrubute file system)->分布式文件系统 ,它采用主从结构,Namenode属于主段,Datanode属于从端
2.mapreduce->MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。
3.Hive->是一个分布式数据仓库,管理存储在hdfs的数据,提供了基于sql的查询语言。
4.sqoop->完成hdfs和关系型数据库中的数据相互转移的工具
5.Hbase->分布式列数据库
6.Mahout ->机器学习和数据挖掘的一个分布式框架