![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop学习
悠然如月
这个作者很懒,什么都没留下…
展开
-
Hadoop-6-基于Hadoop的数据仓库Hive
6.1 概述6.1.1 数据仓库概念数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。6.1.2 传统数据仓库面临的挑战无法满足快速增长的海量数据存储需求无法有效处理不同类型的数据计算和处理能力不足6.1.3 Hive简介Hive是一个构建于Hadoop顶层的数据仓库工具支持大规模数据存原创 2020-11-18 14:31:39 · 1099 阅读 · 0 评论 -
Hadoop-5-MapReduce
5.1 概述5.1.1 分布式并行编程“摩尔定律”, CPU性能大约每隔18个月翻一番从2005年开始摩尔定律逐渐失效 ,需要处理的数据量快速增加,人们开始借助于分布式并行编程来提高程序性能分布式程序运行在大规模计算机集群上,可以并行执行大规模数据处理任务,从而获得海量的计算能力谷歌公司最先提出了分布式并行编程模型MapReduce,Hadoop MapReduce是它的开源实现,后者比前者使用门槛低很多问题:在MapReduce出现之前,已经有像MPI这样非常成熟的并行计算框架了,那么为什么G原创 2020-11-07 17:23:47 · 1251 阅读 · 0 评论 -
Hadoop-4-分布式数据库HBase
4.1 概述4.1.1 从BigTable说起BigTable是一个分布式存储系统 ,起初用于解决典型的互联网搜索问题(Google大规模搜索问题)利用谷歌提出的MapReduce分布式并行计算模型来处理海量数据使用谷歌分布式文件系统GFS作为底层数据存储采用Chubby提供协同服务管理可以扩展到PB级别的数据和上千台机器,具备广泛应用性、可扩展性、 高性能和高可用性等特点谷歌的许多项目都存储在BigTable中,包括搜索、地图、财经、打印、 社交网站Orkut、视频共享网站YouTube和原创 2020-11-07 17:18:12 · 1019 阅读 · 0 评论 -
Hadoop-3-分布式文件系统HDFS
3.1 分布式文件系统3.1.1 计算机集群结构分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群与之前使用多个处理器和专用高级硬件的并行化处理装置不同的是,目前的分布式文件系统所采用的计算机集群,都是由普通硬件构成的,这就大大降低了硬件上的开销3.1.2 分布式文件系统的结构分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,这些节点分为两类,一类叫“主节点”(Master Node)或者也被称为“名称结点”(NameNode),另一类叫“从节点”(原创 2020-11-01 08:23:28 · 2259 阅读 · 1 评论 -
Hadoop-2-Hadoop概述、安装与配置
了解了大数据基本知识,现在我们来了解一下Hadoop吧!2.1 概述2.1.1 Hadoop简介Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中Hadoop的核心是分布式文件系统HDFS(Hadoop Distributed File System)和MapReduceHadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的原创 2020-10-25 12:52:31 · 1470 阅读 · 0 评论 -
Hadoop-1-大数据概述
在学习Hadoop之前,我们先来学习一下大数据的有关知识吧~1.1 大数据时代1.1.1 三次信息化浪潮次序时间标志解决问题代表企业大数据第一次信息化浪潮1980年前后个人计算机信息处理Intel,AMD,IBM,苹果,微软,联想,戴尔,惠普等兴起第二次信息化浪潮1995年前后互联网信息传输雅虎,Google,Alibaba,百度,腾讯普及第三次信息化浪潮2010年前后物联网、云计算和大数据信息爆炸亚马逊、Google、IBM、VMW原创 2020-10-25 12:46:29 · 3201 阅读 · 2 评论