一、说明HDFS、HBASE、hive的区别?
1、HDFS(分布式文件系统):
是Hadoop两大核心组成部分之一,提供在廉价服务器集群中进行大规模分布式文件存储的能力。
具有很好的容错能力,并且兼容廉价的硬件设备,因此可以较低成本利用现有机器实现大流量和大数据量的读写
2、HBase(分布式数据库):
是一个高可靠、高性能、面向列、可伸缩的分布式数据库,主要用来存储非结构化和半结构化的松散数据
支持超大规模数据存储,可以通过水平扩展的方式,利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表
3、Hive(数据仓库):
基于Hadoop的数据仓库工具,可以用于对存储在Hadoop文件中的数据集进行数据整理、特殊查询和分析处理。
二、云计算与大数据技术的关系?
云计算是大数据分析与处理的一种重要方法,云计算是计算,而大数据则是计算对象。
三、什么是云计算?它的特点?
云计算是基于互联网的服务的增加、使用和交付模式,通常涉及通过互联网来提供动态、易扩展且经常是虚拟化的资源。云计算是传统计算机和网络技术发展融合的产物,它意味着计算能力也可作为一种商品通过互联网进行流通。
特点为:
- 资源池弹性可扩张
- 按需提供资源服务
- 网络化的资源接入
- 虚拟化
- 提高可靠性和安全性
四、云计算的分类?
- 按技术路线分类
技术路线分类 资源整合型云计算 资源切分型云计算 核心技术为分布式计算和存储技术。例MPI、Hadoop、HPCC、Storm 核心技术为虚拟化技术。例KVM、VMware - 按服务对象分类
公有云 | 私有云 | 混合云 | 社区云 |
指服务对象是面向公众的云计算服务,公有云对云计算系统的稳定性、安全性和并发服务能力有更高的要求。 | 指主要服务于某一组织内部的云计算服务,其服务并不向公众开放,如企业、政府内部的云服务。 | 是把公有云和私有云结合在一起的方式,在这个模式中,用户通常将非企业关键信息外包,并在公有云上处理,而掌握企业关键服务及数据的内容则放在私有云上处理。 | 是公有云范畴内的一个组成部分。它由众多利益相仿的组织掌控及使用,其目的是实现云计算的一些优势,例如特定安全要求、共同宗旨等。社区成员共同使用云数据及应用程序。 |
- 按资源封装层次分类
基础设施即服务 | 平台即服务 | 软件即服务 |
把单纯的计算和存储资源不经封装地直接通过网络以服务的形式提供的用户使用。 | 计算和存储资源经封装后,以某种接口和协议的形式提供给用户调用,资源的使用者不再直接面对底层资源 | 将计算和存储资源封装为用户可以直接使用的应用并通过网络提供给用户,Saas 面向的服务对象为最终用户,用户只是对软件功能进行使用,无需了解任何云计算系统的内部结构,也不需要用户具有专业的技术开发能力。 |
五、什么是集群?特点?分类?
集群(cluster)就是一组计算机,它们作为一个整体向用户提供一组网络资源,这些单个的计算机系统就是集群的节点(node)。集群提供了以下关键的特性。
- 可扩展性。集群的性能不限于单一的服务实体,新的服务实体可以动态的加入到集群,从而增强集群的性能。
- 高可用性。集群通过服务实体冗余使客户端免于轻易遭遇到“out of service”警告。当一台节点服务器发生故障的时候,这台服务器上所运行的应用程序将在另一节点服务器上被自动接管。消除单点故障对于增强数据可用性、可达性和可靠性是非常重要的。
- 负载均衡。负载均衡能把任务比较均匀的分布到集群环境下的计算和网络资源,以便提高数据吞吐量。
- 错误恢复。如果集群中的某一台服务器由于故障或者维护需要而无法使用,资源和应用程序将转移到可用的集群节点上。这种由于某个节点中的资源不能工作,另一个可用节点中的资源能够透明的接管并继续完成任务的过程叫做错误恢复。
集群主要分成三大类:
- HA:高可用集群(High Availability Cluster)。
- LBC:负载均衡集群/负载均衡系统(Load Balance Cluster)
- HPC:科学计算集群(High Performance Computing Cluster)/高性能计算(High Performance Computing)集群。
六、分布式系统中计算和数据的协作机制(分布式计算分类、各自主要特点?)
面向计算的分布式系统 | 混合型分布式系统 | 面向数据的分布式系统 | |
应用场景 | 计算密集 | 计算密集 | 数据密集 |
负载均衡方式 | CPU参数均衡 | CPU参数均衡、数据块均衡 | 数据块均衡 |
主要应用领域 | 专业领域 | 专业领域 | 普通领域 |
典型系统 | MPI,高性能计算 | 网格计算,高性能计算 | Hadoop、DynameCassandra 、Google |