hadoop概述

最新推荐文章于 2023-09-21 18:14:18 发布

sgxmr

最新推荐文章于 2023-09-21 18:14:18 发布

阅读量160

点赞数

分类专栏： # hadoop 文章标签： hadoop

本文链接：https://blog.csdn.net/weixin_46155444/article/details/118549843

版权

hadoop 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

文章目录

大数据简介

大数据（Big Data）：指**无法在一定时间范围**内用常规软件工具进行捕捉、管理和

处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化
能力的海量、高增长率和多样化的信息资产

大数据主要解决，海量数据的采集、存储和分析计算问题。

按顺序给出数据存储单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。

1Byte = 8bit 1K = 1024Byte 1MB = 1024K
1G = 1024M 1T = 1024G 1P = 1024T

大数据特点

Volume（大量）
Velocity（高速）
Variety（多样）
Variety（多样）

大数据应用

算法推荐（抖音），

电商站内广告推荐：给用户推荐可能喜欢的商品，

零售：分析用户消费习惯，为用户购买商品提供方便，从而提升商品销量。

物流仓储：京东物流，上午下单下午送达、下午下单次日上午送达

保险：海量数据挖掘及风险预测，助力保险行业精准营销，提升精细化定价能力。

房产：大数据全面助力房地产行业，打造精准投策与营销，选出更合适的地，建造更合适的楼，
卖给更合适的人。

大数据部门业务流程

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zug5W8v6-1625645816745)(C:/Users/74277/AppData/Roaming/Typora/typora-user-images/image-20210707161310301.png)]

1.hadoop简介

1.1 hadoop是什么

1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

2）主要解决，海量数据的存储和海量数据的分析计算问题。

3）广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态

大数据生态体系

1.2 发展历史

1）Hadoop创始人Doug Cutting，为了实现与Google类似的全文搜索功能，他在Lucene框架基础上进行
化升级查询引擎和索引引

2）2001年年底Lucene成为Apache基金会的一个子项目。
3）对于海量数据的场景，Lucene框架面对与Google同样的困难，存储海量数据困难，检索海量速度慢。
4）学习和模仿Google解决这些问题的办法：微型版Nutch。

5）可以说Google是Hadoop的思想之源（Google在大数据方面的三篇论文）
GFS —>HDFS
Map-Reduce —>MR
BigTable —>HBase

6）2003-2004年，Google公开了部分GFS和MapReduce思想的细节，以此为基础Doug Cutting等人用
了2年业余时间实现了DFS和MapReduce机制，使Nutch性能飙升。
7）2005 年Hadoop 作为 Lucene的子项目 Nutch的一部分正式引入Apache基金会。
8）2006 年 3 月份，Map-Reduce和Nutch Distributed File System （NDFS）分别被纳入到 Hadoop 项目
中，Hadoop就此正式诞生，标志着大数据时代来临。
9）名字来源于Doug Cutting儿子的玩具大象

1.3 发行版本

Hadoop 三大发行版本：Apache、Cloudera、Hortonworks。
Apache 版本最原始（最基础）的版本，对于入门学习最好。2006
Cloudera 内部集成了很多大数据框架，对应产品 CDH。2008
Hortonworks 文档较好，对应产品 HDP。2011
Hortonworks 现在已经被 Cloudera 公司收购，推出新的品牌 CDP。

1）Apache Hadoop

官网地址：http://hadoop.apache.org
下载地址：https://hadoop.apache.org/releases.html
2）Cloudera Hadoop
官网地址：https://www.cloudera.com/downloads/cdh
下载地址：https://docs.cloudera.com/documentation/enterprise/6/releasenotes/topics/rg_cdh_6_download.html
Cloudera Manager 是集群的软件分发及管理监控平台，可以在几个小时内部署好一
个 Hadoop 集群，并对集群的节点及服务进行实时监控。

3）Hortonworks Hadoop
官网地址：https://hortonworks.com/products/data-center/hdp/
下载地址：https://hortonworks.com/downloads/#data-platform
Hortonworks 的主打产品是 Hortonworks Data Platform（HDP），也同样是 100%开
源的产品，HDP 除常见的项目外还包括了 Ambari，一款开源的安装和管理系统。
2018 年 Hortonworks 目前已经被 Cloudera 公司收购。