我总好奇其他公司是如何安装Hadoop集群的。他们是如何使用微系统的。由于Hadoop仍然是新技术,还没有最佳实践。每个公司都是按照他们的想法实施Hadoop集群的最佳架构。 Hadoop NYC2010会议上,ebay展示了他们的生产环境中Hadoop集群的实施情况。下面是ebay实施Hadoop的要点。 1) JobTracker, Namenode, Zookeeper, HBase Master都运行在Sun 64位的架构上。运行red hat linux 72GB Ram和4TB磁盘。 2) 总共有4000数据节点,每个节点运行在cent OS 48GB和10TB空间。 3) 监控和通知使用Ganglia和Nagios。Ebay本身还建立的定制的解决方法增强功能。 4) 大部分ETL使用Java Map Reduce程序完成。 5) 数据管道建立使用Pig 6) AdHoc查询使用Hive 7) 数据挖掘使用Mahout 他们正尝试使用Oozie管理工作流程,但还没决定使用。 看起来他们所有事都做对了。
hadoop集群
最新推荐文章于 2021-05-27 18:38:54 发布