大数据篇|Hadoop发展史及介绍

一、Hadoop介绍

1.1、Hadoop是什么

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决海量数据的存储和海量数据的分析计算问题。

二、Hadoop发展史

2.1、创始人

Doug Cutting(道格·卡丁):创建了Lucene,与Mike Cafarella共同创建了搜索引擎Nutch

Mike Cafarella:是一位专攻数据库管理系统的科学家

2.2、Hadoop发展历史/起源

Hadoop是Apache Lucene创始人 Doug Cutting (道格·卡丁)创建的。最早起源于Nutch,它是Lucene的子项目。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题:如何解决数十亿网页的存储和索引问题。

Hadoop的雏形是由Doug Cutting(道格·卡丁)等人借鉴Google在大数据方面的三篇论文后(GFS->HDFS,MapReduce->MR,BigTable->HBase),用了2年业余时间实现的,后来被引入Apache基金会立项,2006年3月Hadoop正式诞生,标志着大数据时代来临。名字来源于Doug Cutting儿子的玩具大象。
在这里插入图片描述

早在2002年的时候,Doug和Mike设计一个搜索引擎Nutch,爬取了全网10亿个网页的数据,爬取完成之后,在设计搜索引擎的过程中,遇到了存储的问题

  • 在2003年的时候,Google发表了一篇论文<The Google File System>(GFS),阐述了分布式存储的思想和原理,但是并没有对外公开这个框架

  • 在2004年的时候,Doug和Mike根绝GFS实现了Nutch中的存储系统 - NDFS(Nutch Distributed File System - Nutch分布式文件系统)

  • 在2004年的时候,Google发表了一篇论文<The Google MapReduce>,阐述了分布式计算的思想和原理,但是同样没有对外公开使用这个框架

  • 在2005年的时候,Doug根据这篇论文实现了Nutch中的MapReduce

  • 2006年Google发表了论文是关于BigTable的,这促使了后来的Hbase的发展。

  • 在Nutch0.8的时候,Doug发现NDFS和MapReduce不只可以用于搜索引擎,也可以用于其他的分布式处理,所以就把NDFS和MapReduce以及其他的一些需要的基本以来分离出来,组成了一个新的框架Hadoop,同时NDFS改名为HDFS(Hadoop Distributed File System),至此,Hadoop正式面世

在2007年11月的时候,Doug加入了Yahoo!,在Yahoo!工作期间,深度开发了Hadoop,后来还根据网友的建议,实现了HBase、Pig等框架

后来Yaoo!将Hadoop、HBase、Pig等框架贡献给了Apache

2.3、Hadoop三大发行版本

Hadoop三大发行版本:Apache、Cloudera、Hortonworks。

  • Apache版本是最原始最基础的版本,开源免费。
  • Cloudera内部集成了很多大数据框架,对应产品CDH,收费,每年每个节点10000美元。
  • Hortonworks文档较好,对应产品HDP,目前已被Cloudera公司收购。

2.3.1、Apache Hadoop

官网地址:http://hadoop.apache.org/releases.html
下载地址:https://archive.apache.org/dist/hadoop/common/

2.3.2、Cloudera Hadoop

cloudera主要是美国一家大数据公司在apache开源hadoop的版本上,通过自己公司内部的各种补丁,实现版本之间的稳定运行,大数据生态圈的各个版本的软件都提供了对应的版本,解决了版本的升级困难,版本兼容性等各种问题。

官网地址:https://www.cloudera.com/downloads/cdh/5-10-0.html
下载地址:http://archive-primary.cloudera.com/cdh5/cdh/5/

  • (1)2008年成立的Cloudera是最早将Hadoop商用的公司,为合作伙伴提供Hadoop的商用解决方案,主要是包括支持、咨询服务、培训。

  • (2)2009年Hadoop的创始人Doug Cutting也加盟Cloudera公司。Cloudera产品主要为CDH,Cloudera Manager,Cloudera Support

  • (3)CDH是Cloudera的Hadoop发行版,完全开源,比Apache Hadoop在兼容性,安全性,稳定性上有所增强。

  • (4)Cloudera Manager是集群的软件分发及管理监控平台,可以在几个小时内部署好一个Hadoop集群,并对集群的节点及服务进行实时监控。Cloudera Support即是对Hadoop的技术支持。

  • (5)Cloudera的标价为每年每个节点4000美元。Cloudera开发并贡献了可实时处理大数据的Impala项目。

2.3.3、Hortonworks Hadoop

hortonworks主要是雅虎主导Hadoop开发的副总裁,带领二十几个核心成员成立Hortonworks,核心产品软件HDP(ambari),HDF免费开源,并且提供一整套的web管理界面,供我们可以通过web界面管理我们的集群状态,web管理界面软件HDF网址(http://ambari.apache.org/),2018年,大数据领域的两大巨头公司Cloudera和Hortonworks宣布平等合并,Cloudera以股票方式收购Hortonworks,Cloudera股东最终获得合并公司60%的股份。

官网地址:https://hortonworks.com/products/data-center/hdp/
下载地址:https://hortonworks.com/downloads/#data-platform

  • (1)2011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建。

  • (2)公司成立之初就吸纳了大约25名至30名专门研究Hadoop的雅虎工程师,上述工程师均在2005年开始协助雅虎开发Hadoop,贡献了Hadoop80%的代码。

  • (3)雅虎工程副总裁、雅虎Hadoop开发团队负责人Eric Baldeschwieler出任Hortonworks的首席执行官。

  • (4)Hortonworks的主打产品是Hortonworks Data Platform(HDP),也同样是100%开源的产品,HDP除常见的项目外还包括了Ambari,一款开源的安装和管理系统。

  • (5)HCatalog,一个元数据管理系统,HCatalog现已集成到Facebook开源的Hive中。Hortonworks的Stinger开创性的极大的优化了Hive项目。Hortonworks为入门提供了一个非常好的,易于使用的沙盒。

  • (6)Hortonworks开发了很多增强特性并提交至核心主干,这使得Apache Hadoop能够在包括Window Server和Windows Azure在内的Microsoft Windows平台上本地运行。定价以集群为基础,每10个节点每年为12500美元。

三、Hadoop组成

3.1、Hadoop组成

Hadoop自诞生以来,主要分为Hadoop1、Hadoop2、Hadoop3三个系列的多个版本,目前市场上最主流的是Hadoop2.x版本。Hadoop2.x版本指的是第2代Hadoop,它是从Hadoop1.x发展而来的,并且相对于Hadoop1.x来说,有很多改进。

Hadoop1.X:包含了Common、HDFS和MapReduce模块。现在市面上已经停止使用

Hadoop2.X:包含了Common、HDFS、MapReduce以及YARN模块。从Hadoop2.7版本开始,还包含了Ozone模块。Hadoop2.X和Hadoop1.X全版本不兼容

Hadoop3.X:包含了Common、HDFS、MapReduce、YARN和Ozone模块。Hadoop3.X和Hadoop2.X部分版本兼容
在这里插入图片描述
Hadoop3.0相比之前的Hadoop2.0有一系列的功能增强。但目前还是个alpha版本,有很多bug,且不能保证API的稳定和质量。

Apache Hadoop 2.7.4是当前2系列最稳定版本。

3.2、模块

Hadoop Common:公共依赖模块

Hadoop Distributed File System (HDFS™):分布式文件系统,解决存储问题。HDFS由NameNode、DataNode和Secondary NameNode组成。NameNode存储文件的元数据,DataNode存储文件块数据,Secondary NameNode每隔一段时间对NameNode元数据备份。

Hadoop YARN:负责任务调度和集群的资源管理。Yarn由ResourceManager、NodeManager、ApplicationMaster和Container组成。

Hadoop MapReduce:基于YARN的分布式计算系统。MapReduce将计算过程分成两个阶段,Map阶段和Reduce阶段,Map阶段并行处理输入数据,Reduce阶段对Map结果进行汇总。

Hadoop Ozone:一个可伸缩、冗余和分布式的对象存储

3.3、Hadoop特性优点

扩容能力(Scalable):Hadoop是在可用的计算机集群间分配数据并完成计算任务的,这些集群可用方便的扩展到数以千计的节点中。

成本低(Economical):Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据,以至于成本很低。

高效率(Efficient):通过并发数据,Hadoop可以在节点之间动态并行的移动数据,使得速度非常快。

可靠性(Rellable)/高容错性:能自动维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。所以Hadoop的按位存储和处理数据的能力值得人们信赖。

  • 21
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
大数据的定义 大数据的风暴从何时开始刮起,这一点也许大多数人都没有弄清楚。但现在要是询问 是什么在改变着21世纪,恐怕十之八九的人会异口同声地告诉你:大数据。随着其自身 的几次更新,人们也越来越认识到他的力量。根据研究机构 IDC(国际数据资讯公司)的分析,这个世界上的资料正在以每两年就翻倍的惊人速度增加 中。了解大数据、如何利用巨量资料,成了人人关心的重点议题。 对于大数据的定义现在没有什么统一的定论,但大数据领域里的几乎人人都同意一点: 大数据不仅仅是指更多资料而已。下面的七个有关大数据的看法只是众多观点中的一部 分,只希望能给各位打开一丝灵光。 NO.1 大数据的 3Vs 定义 这是目前为止最受推崇且最广为人知的说法。3Vs 由 Gartner 的分析师 Doug Laney 最早在 2001 年时提出,分别代表资料量 Volume、资料传输速度 Velocity、资料类型 Variety。从那之后,便有人在 3Vs 之外陆续提出更多「V」, Veracity、Validity、 Value、Visibility 等,其中又以 Veracity (真实性)最被普遍认同。 NO.2 大数据即科技 大数据并不是什么崭新的概念,好几十年前 CERN 的科学家就在处理每秒上看 PB(Peta Bytes)巨量资料。那为什么一直到近几年「大数据」这颗塬子弹才被投到科技圈,轰得 人人叁句不离大数据?   现今要处理的资料量更庞大、资料产生跟处理速度更惊人、资料来源更多样,于是 处理、储存大量资料的新技术跟工具快速发展,像是开源软体 Hadoop 跟 NoSQL 资料库。新科技诞生后,开发者跟使用者需要一个专业名词来与之前的科技作出区别, 于是「大数据」一词因应而生。   因此大数据不只是指资料,也指这些用来分析、处理巨量资料的新兴科技。 NO.3大数据是不同的资料类型 现今「大数据」所涉及的资料已经和过去的资料已经不同了。根据 Hortonworks 公司战略副总裁 Shaun Connolly 的说法1,过去的资料大部分是人工手记下来的交易纪录(Transactions),现在则是机器 替我们记录下来的交易资料;除此之外,还有人们跟事物、企业间的互动资料(Interact ions),例如人们在网路上点击网页跟连结的纪录;最后则是机器自动生成、累积下来的 观察资料(Observations),例如智慧型家居产品记录下来的室温变化等。 因此 Shaun Connolly 定义大数据是由交易、互动、观察资料所组成的资料型态。 NO.4大数据即讯号   SAP 公司的高管 Steve Lucas 不以资料型态来看待大数据,而是以目的(intent)跟时机(timing)。在过去,企业收集 到的资料只能在事情发生后引以为鉴,但现在企业收集到的是「新讯号」2,可以在事情 发生前得到前兆跟提示,进而做出行动来影响事情结果。例如某品牌广告在社群网站上 的「赞」数、点阅率如果跌落谷底,公司便可以预期接下来产品销售量一定也会惨不忍 睹;同样的情形在过去时,公司所得到的数据就是产品发售后的销售量。 NO.5 大数据即Big Data 根据 451 Research 的数据专家 Matt Aslett,他将大数据定义为Big Data 。这个说法也受到许多人的赞同,因为多半提起大数据时,都是在讨论这些以前无法分 析处理、囊括其中的资料。   其实他在文中并不是用 Big Data 一字,而是使用「Dark Data(暗数据)」。事实上许多公司都使用暗数据这个字,因为当资料变「暗」了,便表 示一个漏掉的讯息、错失的机会,在企业策略中留下一个盲点4。一直以来,各企业雇用 数据专家的目的就是希望能「点亮」这些暗数据(illuminate the Dark Data),观察到以前不曾注意过的趋势、做出更全面的考量。也因此,SAP 曾经做过一个调查显示,将近 76% 的企业高管们视大数据为「机会」。 NO.6 大数据的哲学定义 前《Time(时代)》、《Life(生活)》、《National Geographic(国家地理)》杂志摄影师,负责过有史以来最大摄影项目的 Rick Smolan ,在他的著作《大数据的人性面孔》(The Human Face of Big Data)一书中,则给了大数据一个不错的哲学定义 ——「大数据是帮助地球建构神经系统的一个过程,在这系统中,我们(人类)不过是其中 一种感测器。 NO.7 大数据是旧东西的新噱头 也有部份人认为,「大数据」一词被严重滥用,大数据只是商业智慧(Business intelligence)或商业分析(Business analytics)演化后的新字7。   从 Google Trend 里可以看出,从
大数据、数据挖掘与智慧运营 演讲人 2025-11-11 大数据、数据挖掘与智慧运营全文共64页,当前为第1页。 1 大数据、数据挖掘与智慧运营综述 01 Part One 大数据、数据挖掘与智慧运营全文共64页,当前为第2页。 1 大数据、数据挖掘与智慧运营综述 1.1 数据挖掘的发展史 1.2 数据挖掘的主要流程与金字塔模型 1.3 数据挖掘对智慧运营的意义 1.4 大数据时代已经来临 1.5 非结构化数据挖掘的研究进展 1.6 数据挖掘与机器学习、深度学习、人工智能及云计算 大数据、数据挖掘与智慧运营全文共64页,当前为第3页。 1 大数据、数据挖掘与智慧运营综述 1.7 现有数据挖掘的主要分析软件与系统 大数据、数据挖掘与智慧运营全文共64页,当前为第4页。 1 大数据、数据挖掘与智慧运营综述 1.1 数据挖掘的发展史 1.1.1 数据挖掘的定义与起源 01 1.1.2 数据挖掘的早期发展 02 1.1.3 数据挖掘的算法前传 03 1.1.4 数据挖掘的第一个里程碑 04 1.1.5 最近十年的发展与应用 05 大数据、数据挖掘与智慧运营全文共64页,当前为第5页。 1 大数据、数据挖掘与智慧运营综述 1.2 数据挖掘的主要流程与金字塔模型 1.2.1 数据挖掘的任务 1.2.2 数据挖掘的基本步骤 1.2.3 数据挖掘的架构——云计算 1.2.4 "金字塔"模型 大数据、数据挖掘与智慧运营全文共64页,当前为第6页。 LOGO M.94275.CN 1 大数据、数据挖掘与智慧运营综述 1.3 数据挖掘对智慧运营的意义 01 1.3.1 "互联网+"时代的来临及其对运营商的冲击和挑战 02 1.3.2 大数据时代的来临及其对运营商的挑战和机遇 03 1.3.3 电信运营商运营发展面临的主要瓶颈 04 1.3.4 电信运营商发展的"三条曲线" 05 1.3.5 智慧运营与大数据变现 06 1.3.6 数据挖掘对于提升智慧运营效率的意义 大数据、数据挖掘与智慧运营全文共64页,当前为第7页。 1.4 大数据时代已经来临 1 大数据、数据挖掘与智慧运营综述 1.4.2 大数据的"4V"特征 1.4.1 大数据的定义 1.4.3 结构化数据与非结构化数据 大数据、数据挖掘与智慧运营全文共64页,当前为第8页。 LOGO M.94275.CN 1 大数据、数据挖掘与智慧运营综述 1.5 非结构化数据挖掘的研究进展 1.5.2 模式识别 02 1.5.4 视频识别 04 1.5.1 文本挖掘 01 1.5.3 语音识别 03 1.5.5 其他非结构化数据挖掘 05 大数据、数据挖掘与智慧运营全文共64页,当前为第9页。 LOGO M.94275.CN 1 大数据、数据挖掘与智慧运营综述 1.6 数据挖掘与机器学习、深度学习、人工智能及云计算 1.6.1 机器学习 1.6.2 深度学习 1.6.4 云计算 1.6.3 人工智能 大数据、数据挖掘与智慧运营全文共64页,当前为第10页。 LOGO M.94275.CN 1 大数据、数据挖掘与智慧运营综述 1.7 现有数据挖掘的主要分析软件与系统 1.7.1 Hadoop 01 1.7.2 Storm 02 1.7.5 SAS 05 1.7.4 SPASS(SPSS) 04 1.7.3 Spark 03 大数据、数据挖掘与智慧运营全文共64页,当前为第11页。 2 数据统计与数据预处理 02 Part One 大数据、数据挖掘与智慧运营全文共64页,当前为第12页。 2 数据统计与数据预处理 2.1 数据属性类型 2.2 数据的统计特性 2.5 SPSS软件中的数据预处理案例 2.3 数据预处理 2.4 数据字段的衍生 大数据、数据挖掘与智慧运营全文共64页,当前为第13页。 LOGO M.94275.CN 2 数据统计与数据预处理 2.1 数据属性类型 A B C 2.1.2 离散属性 2.1.3 连续属性 2.1.1 数据属性定义 大数据、数据挖掘与智慧运营全文共64页,当前为第14页。 2.2 数据的统计特性 2 数据统计与数据预处理 C B A 2.2.1 中心趋势度量 2.2.2 数据散布度量 2.2.3 数据相关性 大数据、数据挖掘与智慧运营全文共64页,当前为第15页。 2.3 数据预处理 2 数据统计与数据预处理 2.3.2 数据预处理的主要任务 02 2.3.5 数据规约 05 2.3.1 数据预处理概述 01 2.3.4 数据集成 04 2.3.3 数据清理 03 2.3.6 数据变换和离散化 06 大数据、数据挖掘与智慧运营全文共64页,当前为第16页。 2.4 数据字段的衍生 2 数据统计与数据预处理 2.4.2 统计特征的构造 2.4.1 数据字段的拆分 2.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值