![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
蔚蓝色天空sky
不抛弃,不放弃、、、
展开
-
cloudera-quickstart 初体验
1、cloudera-quickstart提供了集成了大部分大数据组件的虚拟机镜像系统,包括hadoop,hbase,hive,hue,spark,zookeeper等等,是cloudera定制的版本,还有cloudera的管理组件,基本上不用配置,我下载了vmware的镜像。vmware的镜像下载地址:cloudera-quickstart-vm-5.5.0-0-vmware.zip2、下载后,直接解压,然后用vmware直接打开文件–>打开–>选择cloudera-quickstart原创 2020-10-28 19:24:13 · 1093 阅读 · 3 评论 -
CDH6.2.0集群搭建
1、准备工作1.1 首先我们要准备三台centos7机器,这三台centos7机器的ip、hostname分别为IPhostname192.168.1.11master192.168.1.12slave01192.168.1.13slave02原创 2020-10-27 21:16:37 · 688 阅读 · 0 评论 -
Hadoop V2 yarn与Hadoop V1 MapReduce对比
对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架1、Hadoop v11.1 Hadoop v1 MapReduce 架构图1.2 Hadoop v1 MapReduce程序的流程及设计思路首先用户程序 (JobClient) 提交了一个 job,job 的信息会发送到 Job Tracker 中,Job Tracker 是 Map-reduce 框架的中心,他需要与集群中的机器定时通信 (heartbeat), 需要管理哪些程序应该跑在哪些转载 2020-10-24 11:27:31 · 485 阅读 · 0 评论 -
MapReduce流程
1、原理流程input data - input format - map - shuffle&sort - reduce - output datainput data 数据存储位置hdfs,切分成多个一定大小的block(128m 备份3个),存储在多个节点(DataNode)上input fomat MR框架基础类之一 实际上是一个接口默认TextInputForma,data splits 数据分割,通过分片算法对block进行分片,每个split包含后一个block中开头部分的数据转载 2020-10-23 08:37:57 · 90 阅读 · 0 评论 -
MapReduce简介及优缺点
1、什么是MapReduce?MapReduce是一种大规模数据处理的编程模型,用于大规模数据集的并行运算。Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上。并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集...转载 2020-10-23 08:36:36 · 6054 阅读 · 0 评论 -
使用mapreduce统计文件中所有单词出现的次数
1、将wordcount.txt文本文件上传到/data/目录下,wordcount.txt文件内容如下:red black green yellowred blue blueblack big small small yellowred red red redblue 2、创建一个java maven工程,pom.xml中添加hdfs、mapreduce的引用,如下<project xmlns="http://maven.apache.org/POM/4.0.0" xm原创 2020-10-23 08:35:13 · 1677 阅读 · 0 评论 -
分布式文件存储hdfs Java API读写示例
1、新建一个maven工程,pom.xml中添加hadoop-common,hadoop-hdfs引用。<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>2.7.0</version></dependency> <dependency>原创 2020-10-21 18:39:54 · 695 阅读 · 0 评论 -
分布式文件存储hdfs简介及常用命令
1、hdfs简介1.1 什么是HDFS?HDFS(Hadoop Distributed File System)是hadoop生态系统的一个重要组成部分,是hadoop中的的存储组件,是最基础的一部分,MapReduce等计算模型都要依赖于存储在HDFS中的数据。HDFS是一个分布式文件系统,以流式数据访问模式存储超大文件,将数据分块存储到一个商业硬件集群内的不同机器上。1.2 HDFS的设计目标存储超大文件 HDFS适合存储大文件,单个文件大小通常在百MB以上 HDFS适合存储海量文件,总存储量原创 2020-10-21 18:19:35 · 833 阅读 · 0 评论 -
Hadoop2.7.3在centos7上的单机版安装部署
1、使用到的工具版本说明: centos版本:CentOS-7.4-x86_64-DVD-1708.iso JDK版本:jdk-8u231-linux-x64.tar.gz Hadoop版本:hadoop-2.7.3.tar.gz2、环境准备2.1 安装centos参考:在VirtualBox中安装CentOS7详解(Mac版)2.2 关闭防火墙# 停止firewallsystemctl stop firewalld.service# 禁止firewall开机启动原创 2020-10-17 13:35:21 · 975 阅读 · 0 评论 -
Hadoop2.7.3在centos7上的集群安装部署
1、前言首先我们要准备三台centos机器,这三台centos机器的ip、hostname分别为IPhostname192.168.1.31master192.168.1.32slave1192.168.1.33slave2相关设置:设置/etc/hosts关闭防火墙关闭selinux配置ssh免密登录安装jdk安装 hadoop配置...原创 2020-04-05 18:26:43 · 610 阅读 · 0 评论