硬件环境
通常使用基于Intel或AMD CPU的刀片服务器来构建集群系统,为了降低成本可以使用已经停止销售的过时硬件。节点有本地内存和硬盘,通过高速交换机相连(通常为千兆交换机),如果集群节点很多,也可以使用分层交换。集群内的节点是对等的(所有资源可以简化为相同配置),但这一点并非必须。
操作系统
Linux或windows
系统配置
实现HPCC集群用两种配置:数据加工(Thor)类似于Hadoop MapReduce集群;数据分发引擎(Roxie)提供了独立的高性能在 线查询处理功能和数据仓库功能。两种配置都可以用做分布式文件系统,不过它们试图提高性能的实现方法不同。HPCC环境通常由两种配置类型的多个集群组成。虽然每个集群上的文件系统相互独立,但是一个集群可以访问同一环境下位于其他集群上的文件系统内的文件。
Hadoop系统软件使用MapReduce处理范例实现了集群。这样的集群也可以用做运行HDFS的分布式文件系统。其他的功能都处Hadoop的MapReduce和Hbase,Hive等文件系统软件之上。
授权和维护费用
HPCC:社团版本是免费的。企业版授权费用目前取决于集群大小和系统配置的类型。
Hadoop:免费,不过有多个厂商提供不同的付费的维护服务。
核心软件
HPCC:如果使用了Thor配置,那么核心软件包括安装在集群每个节点上的操作系统和多种服务,它们来实现任务的执行和分布式文件系统的访问。名 字为Dali的独立服务器提供文件系统名字服务和管理HPCC环境下任务的工作单元。Thor集群可以配置为一个主节点和多个备用节点。Roxie集群是一个对等连接的集群,它的每个节点可运行服务器和执行查询以及密钥和文件处理的任务代理。Roxie集群的文件系统使用分布式B+树来存储索引和数据,并提供对加密数据的访问。要对Thor和Roxie集群进行操作的话,附加的中间件组件是不可或缺的。
Hadoop:核心软件包括操作系统、Hadoop的MapReduce集群和HDFS软件。每个备用节点包括任务跟踪服务和数据节点服务。主节点 包括任务追踪服务,任务追踪服务可