挑选Hadoop版本

1.      在Google上搜索hadoop company list

Ø  找到目前拥有Hadoop集群的公司及数量:

http://www.hadoopwizard.com/which-big-data-company-has-the-worlds-biggest-hadoop-cluster/

Appendix: List of Companies with Number of Hadoop Nodes

Company

Nodes

A9.com

100

Accela Communications

10

Adobe

30

adyard

12

Able Grape

2

Adknowledge

200

Aguja

3

Alibaba

15

AOL

150

ARA.COM.TR

100

Archive.is

3

BabaCar

4

Basenfasten

4

Benipal Technologies

35

Beebler

14

Bixo Labs

20

Brilig

10

Brockmann Consult GmbH

20

Caree.rs

15

Charleston

15

Contextweb

50

Cooliris

15

Cornell

100

CRS4

400

crowdmedia

5

Datagraph

20

Deepdyve

80

Detektei Berlin

3

Detikcom

9

devdaily.com

3

EBay

532

eCircle

120

Enet

5

Enormo

4

ESPOL University

4

ETH Zurich Systems Group

16

Explore.To

80

Facebook

1400

FOX Audience Network

140

Forward3D

24

GBIF

18

GIS.FCU

3

Gruter. Corp.

30

Gewinnspiele

6

GumGum

9

Hadoop Korean User Group

50

Hotels & Accommodation

3

Hulu

13

Hundeshagen

6

Hosting Habitat

6

IIIT

30

IMVU

4

Information Sciences Institute

18

Infochimps

30

Inmobi

150

Iterend

10

Kalooga

20

Clic

10

Last.fm

100

Lineberger Comprehensive Cancer Center

8

LinkedIn

1900 4100

MicroCode

18

Media 6 Degrees

20

Mercadolibre.com

20

MobileAnalytic.TV

2

MyLife

18

Neptune

200

NetSeer

1050

Openstat

50

PCPhase

4

Powerset / Microsoft

400

Pronux

4

PokerTableStats

2

Portabilité

50

PSG Tech

10

Quantcast

3000 cores (est 750 nodes)

Rackspace

30

Rakuten

69

Rapleaf

80

Recruit

50

Redpoll

35

Resu.me

5

RightNow Technologies

16

Rovi Corporation

40

Search Wikia

125

SLC Security Services LLC

18

Sling Media

10

Socialmedia.com

14

Specific Media

138

Spotify

120

Taragana

16

The Lydia News Analysis Project

120

Tailsweep

8

Technical analysis and Stock Research

23

Tegatai

32

Telefonica Research

6

Telenav

60

Tepgo

3

Tynt

94

Universidad Distrital Francisco Jose de Caldas

5

University of Freiburg

10

University of Glasgow

30

University of Twente

16

Visible Measures Corporation

128 cores (est. 32 nodes)

Webmaster Site

4

WorldLingo

44

Yahoo!

42,000

Zvents

10

Ø  从文章http://www.technavio.com/blog/top-14-hadoop-technology-companies可以了解到除了apachehadoop外的其余14家提供Hadoop版本的生产厂商的信息:

1.        Amazon Web Services Inc

2.        IBM Corp

3.        Pivotal Corp

4.        Cloudera Inc

5.        MapR Technologies Inc

6.        Hortonworks Inc

7.        Karmasphere Inc

8.        Hadapt Inc

9.        Super Micro Computer Inc

10.    Pentaho Corp

11.    Zettaset Inc

12.    Datastax Inc

13.    Datameer Inc

14.    Dell Inc

2.      由于我们的开发要基于开源框架,所以进一步搜索”100% open source hadoop”

目前开源的Hadoop有:

Ø  Apache Hadoop

由几个子项目组成:Hadoop Common、Hadoop Distributed File System (HDFS)、Hadoop YARN、HadoopMapReduce

由Yahoo Hadoop团队在过去几年全力构筑,推出了稳定版本。

Ø  Cloudera提供了CDH版本的Hadoop

直到2011年夏天,市面上除了ApacheHadoop之外只有CDH 是100%开源的Hadoop框架,并且它与Linux合作得很好。EMC/Greenplum/MapR这个联盟由于不是开源框架,所以不能在我们的考虑范围之内。

Ø  Hortonworks

原本团队是存在在Yahoo公司内,于2011年被拆分到与Benchmark Capital共同出资的公司Hortonworks,主打产品是Hortonworks DataPlatform (HDP)100%开源

这篇文章具体分析了Clouder和Hortonworks的前景

http://wikibon.org/wiki/v/The_Hadoop_Wars%3A_Cloudera_and_Hortonworks%E2%80%99_Death_Match_for_Mindshare

3.      综合以上分析,我们肯定要在Apache Hadoop、CDH、HDP中选择一款作为基准来研究,考虑到CDH申明包含了Apache Hadoop,所以Apache Hadoop不在考虑之内。

Ø  CDH

优点:支持的厂商较多,对于新需求的反应度也较快。

      子项目包括:Hadoop,Flume, HBase, HCatalog, Hive, Hue, Impala, Mahout, Oozie, Pig, Cloudera Search,Sentry, Spark, Sqoop, Whirr, ZooKeeper

      详尽的Demo程序。

      丰富的文档。

缺点:与用户的交互较少。

      管理组件需付费或者加入联盟,不利于中小型客户拓展。

Ø  HDP

优点:以用户的使用为出发点,用户体验度较好。

      子项目包括:YARN、Stinger、Storm。

缺点:由于起步较晚,较少厂商在使用该版本,目前只有FaceBook和Microsoft两家。

      文档较少。

 

下图为CDH4 VS HDP:

 

Cloudera

Hortonworks

开源程度

标准版100%开源

标准版100%开源

成立时间

2009年3月

2011年6月

天使投资

3千6百万美元

2千万美元

基于Hadoop平台

Apache Hadoop

Yahoo Hadoop平台

客户群

超过400家企业

2家企业(Yahoo 和 Microsoft)

主要管理层

CEO Mike Olson
CTO Dr.Amr Awadallah
Chief Scientist Jeff Hammerbacher
Architect Doug Cutting

CEO  Eric Baldeschwieler
President and COO Rob Bearden
VP of engineering Mark Himelstein

最新稳定版本

CDH4.6

HDP2.0

文档

很多,容易理解

较少

Demo

很多,容易理解

较少

集群管理工具

需付费,免费功能较少

免费

支持的Apache Hadoop相关开源框架

支持Flume, HBase, HCatalog, Hive, Hue, Impala, Mahout, Oozie, Pig, Cloudera Search, Sentry, Spark, Sqoop, Whirr, ZooKeeper

支持YARN、Stinger、Storm

实时处理架构支持

主推Apache Spark

主推Apache Storm

对专有代码的依赖

较高

较低

 

4.      综合以上分析,个人感觉目前还是使用CDH4比较稳妥,当然将继续关注HDP的发展,未来也许是属于HDP的,因为对于用户来说比较重要的两点集群管理工具、对专有代码的依赖都是HDP较有利。

确定了Hadoop架构后我们还需要确定与SQL交互采用什么框架,还有实时情况下采用哪种架构。

 

下图为Storm VS Spark:

 

Strom

Spark

开源

100%

100%

版本

0.9.1

0.8.0

Hadoop架构联盟

HDP

CDH4

运行方式

数据以流的方式流入到指定的机器节点上,在这些节点上执行计算步骤

将大量数据存储在内存中,数据和计算的关系类似于Hadoop,在数据量到位后计算随即在该节点上展开

是否支持并行计算

支持

支持

善长点

被适合于计算数据较小的情况

适合于被计算数据较大的情况

文档

项目创建不久,不是很多

项目创建不久,不是很多

由于选择了CDH4,所以Storm和Spark的选择也就有了结果,目前先用Spark。

 

下图为Hive VS Impala

 

Hive

Impala

是否开源

100%

100%

创始组织

Apache

Apache

Hadoop架构联盟

CDH4

CDH4

工作原理

运用MapReduce操作数据,所以它是基于Hadoop架构的

运用缓存机制来缓存存在于HDFS中的数据,所以它与Hadoop架构是分离的

适用场景

数据量较大时

数据量较小时

   目前来看,选择Hive较为合适,当然我们可以两者并行研究,对于不同的用户需求提供不同的解决方案。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值