Hadoop
文章平均质量分 65
XianMing的博客
感受,感知。
展开
-
Hadoop学习笔记(1)-Hadoop生态系统
0.前言 先介绍下现在的整体大数据架构的内容。见下图。 右边的黑框部分是hadoop的核心架构。包括HDFS,MapReduce,yarn,hive,hbase。 中间红框部分是saprk的生态圈,有RDD,sparkCore,sparkSQL,sparkGraphX,sparkML,sparkR,sparkStreaming。Spark可以完全代替Hadoop中的MapReduce部分。原创 2016-03-31 20:15:04 · 1056 阅读 · 0 评论 -
Hadoop学习笔记(9)-搭建Hbase伪分布式及简单操作
HBase安装模式有三种:单机模式、分布式(伪分布式和完全分布式)。本教程介绍了HBase的伪分布式模式安装配置的过程,伪分布式模式是把进程运行在一台机器上,但不是同一个JVM(单机模式),分布式模式的安装配置需要依赖于HDFS。 安装方法见:http://hbase.apache.org/book.html#standalone_dist我下载的是hbase-1.2.3-bin.tar.gz原创 2016-10-04 20:03:26 · 1054 阅读 · 0 评论 -
Hadoop学习笔记(11)-搭建Hive伪分布式及简单操作
1.下载Hive http://hive.apache.org/downloads.html 从该网址下载hive。我下载的是hive-2.1.0版本 之后用tar命令解压,我是解压到/usr/local/hadoop目录下。 2.配置环境变量 进入.bashrc 修改hive环境变量。vim ~/.bashrc在最后加入:export HIVE_HOME=/usr/local/hadoo原创 2016-10-04 23:59:20 · 881 阅读 · 0 评论 -
Hadoop学习笔记(4)-Eclipse下搭建Hadoop2.6.4开发环境并写wordcount
0.前言本文参考博客:http://www.51itong.net/eclipse-hadoop2-7-0-12448.html 搭建开发环境前保障已经搭建好hadoop的伪分布式。可参考上个博客: http://blog.csdn.net/xummgg/article/details/511730721.下载安装eclipse下载网址:http://www.eclipse.org/downlo原创 2016-04-17 14:22:45 · 11388 阅读 · 7 评论 -
Hadoop学习笔记(8)-简述分布式数据库Hbase原理
1.Hbase简介Hbase是一个分布式可扩展的NoSQL数据库,提供对结构化,半结构化,非结构化大数据的实时读写和随机访问能力,而且操作速度与数据量基本无关,所以可以用于海量数据处理。Hbase之于HDFS就类似于数据库之于文件系统。自然Hbase是建立在HDFS之上的,可以存储海量的数据。 常见的NoSQL数据库还有:Apache Cassandra,MongoDB等。下图1展示了Hbase在原创 2016-10-04 20:47:06 · 2727 阅读 · 1 评论 -
Hadoop学习笔记(10)-简述分布式数据仓库Hive原理
0.什么是数据仓库数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。简单的说就是:数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据原创 2016-10-04 23:32:47 · 3996 阅读 · 0 评论 -
Hadoop学习笔记(7)-简述MapReduce计算框架原理
1. MapReduce基本编程模型和框架1.1 MapReduce抽象模型大数据计算的核心思想是:分而治之。如下图1所示。把大量的数据划分开来,分配给各个子任务来完成。再将结果合并到一起输出。 注:如果数据的耦合性很高,不能分离,那么这种并行计算就不适合了。 图1:MapReduce抽象模型1.2 Hadoop的MapReduce的并行编程模型如下图2所示,Hadoop的MapReduce先将原创 2016-05-30 21:08:35 · 13156 阅读 · 3 评论 -
Hadoop学习笔记(6)-简述分布式文件系统HDFS原理
1.HDFS的基本框架与工作过程1.1 基本组成结构与文件访问过程HDFS是一个建立在一组分布式服务器节点的本地文件系统之上的分布式文件系统。其采用经典的主-从式结构,其基本组成结构如图1所示。 图1 HDFS的基本组成结构 一个HDFS文件系统包括一个主控节点NameNode和一组DataNode从节点。NameNode是一个主服务器,用来管理整个文件系统的命名空间和元数原创 2016-05-29 16:49:24 · 3684 阅读 · 0 评论 -
Hadoop学习笔记(5)-搭建Hadoop分布式
0.前言我要搭建的集群是一台Master和3台Worker。先按照前面博客内容配置好。 修改hostname和hosts http://blog.csdn.net/xummgg/article/details/50634327 ubuntu下ssh无密码登入(设置ssh公钥认证) http://blog.csdn.net/xummgg/article/details/506347301.安装原创 2016-04-17 15:41:16 · 4090 阅读 · 0 评论 -
Hadoop学习笔记(2)-搭建Hadoop本地模式
0.前言hadoop总共有三种运行方式。本地模式(Local (Standalone) Mode),伪分布式(Pseudo-Distributed Mode),分布式(Fully-Distributed Mode)。后面足一讲解搭建本地以及伪分布式,分布式读者自行搭建。 参考资料(官网为主,网络资料为铺): http://hadoop.apache.org/docs/r2.6.4/hadoop-原创 2016-04-17 13:32:05 · 9501 阅读 · 0 评论 -
Hadoop学习笔记(3)-搭建Hadoop伪分布式
0.前言搭建伪分布式要先搭建本地模式。请参照上一个博客: http://blog.csdn.net/xummgg/article/details/51172933 参考资料(官网为主,网络资料为铺): http://hadoop.apache.org/docs/r2.6.4/hadoop-project-dist/hadoop-common/SingleCluster.html#Standal原创 2016-04-17 14:02:14 · 7322 阅读 · 0 评论 -
Spark分布式搭建(4)——ubuntu下Hadoop分布式搭建
0.前言我要搭建的集群是一台Master和3台Worker。先按照前面博客内容配置好。 Spark伪分布式搭建(1)——ubuntu14.04 设置root自动登入 http://blog.csdn.net/xummgg/article/details/50630583 Spark伪分布式搭建(2)——ubuntu14.04下修改hostname和hosts http://blog.csd原创 2016-02-06 23:20:23 · 2094 阅读 · 0 评论 -
hive2.1.1 部署安装
为了备注,转了这篇文章,折腾好久,就这篇搞定了。安装hive 之前,要保证hadoop安装成功,本教程对应的是hadoop版本为2.6.4,hive 版本为 2.1.1,默认情况下,Hive元数据保存在内嵌的 Derby 数据库中,只能允许一个会话连接,只适合简单的测试。为了支持多用户多会话,则需要一个独立的元数据库,我们使用 MySQL 作为元数据库一、下载Hive 下载地址:https://m转载 2017-12-12 15:45:52 · 645 阅读 · 0 评论