2020年10月_蔚蓝色天空sky

11月 10月 09月 06月 04月 03月 02月 01月

原创 cloudera-quickstart 初体验

1、cloudera-quickstart提供了集成了大部分大数据组件的虚拟机镜像系统，包括hadoop，hbase，hive，hue，spark，zookeeper等等，是cloudera定制的版本，还有cloudera的管理组件，基本上不用配置，我下载了vmware的镜像。vmware的镜像下载地址：cloudera-quickstart-vm-5.5.0-0-vmware.zip2、下载后，直接解压，然后用vmware直接打开文件–>打开–>选择cloudera-quickstart

2020-10-28 19:24:13 1128 3

原创 CDH6.2.0集群搭建

1、准备工作1.1 首先我们要准备三台centos7机器，这三台centos7机器的ip、hostname分别为IPhostname192.168.1.11master192.168.1.12slave01192.168.1.13slave02

2020-10-27 21:16:37 706

转载 Hadoop V2 yarn与Hadoop V1 MapReduce对比

对于业界的大数据存储及分布式处理系统来说，Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架1、Hadoop v11.1 Hadoop v1 MapReduce 架构图1.2 Hadoop v1 MapReduce程序的流程及设计思路首先用户程序 (JobClient) 提交了一个 job，job 的信息会发送到 Job Tracker 中，Job Tracker 是 Map-reduce 框架的中心，他需要与集群中的机器定时通信 (heartbeat), 需要管理哪些程序应该跑在哪些

2020-10-24 11:27:31 495

原创 Hive单机版安装

1、环境准备Centos7HadoopJavaMySQL使用到的工具版本说明: centos版本：CentOS-7.4-x86_64-DVD-1708.iso JDK版本：jdk-8u231-linux-x64.tar.gz Hadoop版本：hadoop-2.7.3.tar.gz Hive：apache-hive-2.3.7-bin.tar.gz MySQL：5.7centos7、jdk、hadoop的安装这里就不再讲了，不清楚的可以查看本人之前的blog都有讲。Centos

2020-10-23 18:01:45 2082 1

转载 MapReduce流程

1、原理流程input data - input format - map - shuffle&sort - reduce - output datainput data 数据存储位置hdfs，切分成多个一定大小的block（128m 备份3个），存储在多个节点（DataNode）上input fomat MR框架基础类之一实际上是一个接口默认TextInputForma，data splits 数据分割，通过分片算法对block进行分片，每个split包含后一个block中开头部分的数据

2020-10-23 08:37:57 98

转载 MapReduce简介及优缺点

1、什么是MapReduce?MapReduce是一种大规模数据处理的编程模型，用于大规模数据集的并行运算。Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个hadoop集群上。并以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集...

2020-10-23 08:36:36 6217

原创使用mapreduce统计文件中所有单词出现的次数

1、将wordcount.txt文本文件上传到/data/目录下，wordcount.txt文件内容如下：red black green yellowred blue blueblack big small small yellowred red red redblue 2、创建一个java maven工程，pom.xml中添加hdfs、mapreduce的引用，如下<project xmlns="http://maven.apache.org/POM/4.0.0" xm

2020-10-23 08:35:13 1684

原创使用nginx+tomcat实现集群

1、工具及版本nginx1.8.1tomcat8.5.23jdk1.82、开始下载tomcat8,在百度中输入tomcat8下载，点第一个链接进入tomcat8下载页面，选择8.5.23版本，点红色部分进行下载3、新建一个文件夹test（该路径不要有中文）,将下载好的tomcat拷贝进来，并解压为两个tomcat,如下图修改apache-tomcat-81的配制文件server.xml内容如下：<Connector

2020-10-21 21:21:23 305

原创分布式文件存储hdfs Java API读写示例

1、新建一个maven工程，pom.xml中添加hadoop-common,hadoop-hdfs引用。<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>2.7.0</version></dependency> <dependency>

2020-10-21 18:39:54 707

原创分布式文件存储hdfs简介及常用命令

1、hdfs简介1.1 什么是HDFS?HDFS（Hadoop Distributed File System）是hadoop生态系统的一个重要组成部分，是hadoop中的的存储组件，是最基础的一部分，MapReduce等计算模型都要依赖于存储在HDFS中的数据。HDFS是一个分布式文件系统，以流式数据访问模式存储超大文件，将数据分块存储到一个商业硬件集群内的不同机器上。1.2 HDFS的设计目标存储超大文件 HDFS适合存储大文件，单个文件大小通常在百MB以上 HDFS适合存储海量文件，总存储量

2020-10-21 18:19:35 841

原创 HBase单机版安装部署

1、安装前的环境准备工作，先要一台centos7机器，并安装JDK和Hadoop。参考：Hadoop2.7.3在centos7上的单机版安装部署注：需要注意hadoop的版本和HBase的版本centos版本：CentOS-7.4-x86_64-DVD-1708.isoJDK版本：jdk-8u231-linux-x64.tar.gzHadoop版本：hadoop-2.7.3.tar.gzHBase版本：hbase-2.2.6-bin.tar.gz2、HBase安装包下载下载地址：https

2020-10-17 23:41:16 2779

原创 Hadoop2.7.3在centos7上的单机版安装部署

1、使用到的工具版本说明： centos版本：CentOS-7.4-x86_64-DVD-1708.iso JDK版本：jdk-8u231-linux-x64.tar.gz Hadoop版本：hadoop-2.7.3.tar.gz2、环境准备2.1 安装centos参考：在VirtualBox中安装CentOS7详解(Mac版)2.2 关闭防火墙# 停止firewallsystemctl stop firewalld.service# 禁止firewall开机启动

2020-10-17 13:35:21 981