- 博客(7)
- 收藏
- 关注
转载 spark总结
RDD及其特点1、RDD是Spark的核心数据模型,但是个抽象类,全称为Resillient Distributed Dataset,即弹性分布式数据集。2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以被并行操作。(分布式数据集)3、RDD通常通过Hadoop上的文件,即HDFS文件或者Hive表,来进行...
2019-05-26 21:10:53 144
转载 Hive详细介绍及应用
Hive基本概念1.1 Hive简介1.1.1 什么是HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。1.1.2 为什么使用Hive1.) 直接使用hadoop所面临的问题人员学习成本太高项目周期要求太短MapReduce实现复杂查询逻辑开发难度太大2.)操作接口采用类SQL语法,提供快速开发的能力。...
2019-05-26 21:08:28 415
转载 NOsql详解
什么是NoSQL?NoSQL包含多种不同的数据库技术,这些技术是针对构建现代应用程序时提出的需求而开发的:开发人员正在开发大量新的、快速变化的数据类型-结构化、半结构化、非结构化和多态数据。12到18个月的瀑布开发周期早已逝去。现在,小型团队在敏捷冲刺中工作,快速迭代,每周或两周推送代码,有些甚至每天多次。曾经为有限受众提供服务的应用程序现在作为服务提供,这些服务必须始终处于打开状态,可以...
2019-05-26 17:21:20 294
转载 HBase详细概述
HBase简介HBase的发展史2006年底由PowerSet 的Chad Walters和Jim Kellerman 发起,2008年成为Apache Hadoop的一个子项目。现已作为产品在多家企业被使用,如:WorldLingoStreamy.comOpenPlacesYahoo!Adobe淘宝FacebookTwitterTrend MicroHbase是什么HB...
2019-05-26 17:17:32 153
转载 MapReduce详解
前言】Hadoop是一个实现了Google云计算系统的开源系统,包括并行计算模型Map/Reduce、分布式文件系统HDFS,以及分布式数据库Hbase,同时Hadoop的相关项目也很丰富,包括ZooKeeper,Pig,Chukwa,Hive,Hbase,Mahout,flume等。本文就hadoop的并行分布式计算模型MapReduce做一个简单的入门介绍。【什么是Map/Reduce】...
2019-05-26 17:03:07 150
转载 HDFS
安装请点击下载hadoop-2.6.4解压到 /home/hdfs/hadoop1 useradd hdfs // 创建hdfs用户2 passwd hdfs // 设置hdfs用户的登陆密码3 su hdfs // 切换到hdfs用户登陆4 cd ~ // 进入hdfs的家目录5 rz // 上传windows本地的文件到此家目录6 tar -zxvf hadoop-2.6.4....
2019-05-26 16:58:17 207
转载 Hadoop集群搭建
1.准备好需要安装的软件虚拟机VMware12.pro操作系统CentOS 6.5远程控制虚拟机的终端SecureCRT8.12.在虚拟机中安装CentOS操作系统安装好虚拟机,图形界面如下图创建新的虚拟机,选择自定义(高级),点击下一步虚拟机硬件兼容性默认,浏览需要安装的CentOS6.5镜像文件自定义用户名和密码(用于登录)设置虚拟机名称和存储路径处理器设置...
2019-05-26 16:45:20 85
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人