浅涉大数据技术
文章平均质量分 92
yinglish_
是一名喜欢运动和打游戏的妹子欸
展开
-
MapReduce再学习:资源管理框架YARN
在前面写到的三篇博客中,HDFS概述 和 MapReduce简介写的都是hadoop1.0的情况,针对1.0版本的各种不足,2.0都有相应的改动, HDFS再学习:HA和Federation机制写的是存储系统HDFS上的改动。针对我们的计算模型MapReduce,2.0版本设计了新的资源管理框架YARN。 组件 Hadoop1.0的问题 Hadoop2.0的改进 HD...原创 2017-08-07 20:29:08 · 2465 阅读 · 0 评论 -
HDFS再学习:HA和Federation机制
通过之前(上一篇HDFS的博客)的学习我们已经了解到了hdfs的一些大致基本情况,这篇博客主要补充一下针对HDFS1.0的不足,HDFS2.0的HA机制和Federation机制。先对之前的学习做个小概括: hadoop的特点有:数据的分布存储:HDFS由一个管理节点和若干个数据节点组成,每个节点是一台普通计算机。底层的实现是将一个很大的数据进行切分成块,块分散存储在不同数据节点上。...原创 2017-08-06 18:01:01 · 4485 阅读 · 1 评论 -
MapReduce简介
继上一节的HDFS,这一节来学习并行计算框架MapReduce。 作为Hadoop的又一核心概念,HDFS解决了数据的存储的问题,而MapReduce自然解决的是并行计算的问题。目录:Hadoop的优势与概念Map和Reduce函数MapReduce体系结构:Client,JobTracker, TaskTracke,Task工作流程shuffle过程详解:Map和Reduce...原创 2017-07-23 18:17:16 · 1866 阅读 · 0 评论 -
HDFS概述
想学习大数据方面的知识就避不开hadoop,终于下决心补充一下知识的盲区,听了厦门大学林子雨老师的大数据原理与应用课程(确实是好课,感谢老师!),记录一下自己学习到了HDFS相关知识。HDFS是hadoop的核心设计之一,解决的是海量数据的存储问题。全程Hadoop Distribute File System,是一个分布式文件系统。 分布式文件呢,就是把文件分布存储到多个计算机节点上,成千...原创 2017-07-18 15:37:20 · 5140 阅读 · 1 评论 -
浅谈Hive
让我们开门见山来一句介绍,Hive是建立在Hadoop HDFS上的数据仓库基础架构。 在Hadoop大数据体系中,Hive和HBase事两种基于Hadoop的不同技术,Hive是一类类SQL的引擎,其数据存放在HDFS上,并运用MapReduce进行计算,适合OLAP事务。而HBase是一种在Hadoop上的NOSQL的键值对数据库,提供数据的实时访问。好,接下来我们细细地讲。数据...原创 2018-04-03 15:08:11 · 574 阅读 · 0 评论 -
Ubuntu系统:分布式spark环境搭建
三台机子,系统为ubuntu14.01,公用一个路由器组成一个小型局域网。首先配置固定的ip地址。点击屏幕右上方的网络连接,Edit Connections -> Add -> 类型选Ethernet -> Create -> 选择IPv4 Setting -> Method选择 Manual(手动)-> Add对于可原创 2019-01-17 18:45:52 · 1421 阅读 · 1 评论