Z_Data的博客

专注大数据知识分享

大数据

关注

文章平均质量分 82

关注数：文章数：121 文章阅读量：153009 文章收藏量：279

作者: Z_Data

大学计算机专业老师一枚，高级开发工程师，专注大数据相关技术分享，实战项目开发。

展开

专栏收录文章

Hadoop HA集群配置

目录一、基础配置创建7台机器，设置静态ip分别如下：2、 hadoop配置集群规划安装步骤1、安装配置zooekeeper集群（在ha5上）（更详细zookeeper安装步骤参见zookeeper安装）2、安装配置hadoop集群（在ha1上操作）2.1解压2.2配置HDFS（hadoop2.0所有的配置文件都在$HADOOP_HOME/etc/hado...

原创 2018-11-08 09:34:33 · 952 阅读 · 0 评论
HDFS的shell操作

1、 HDFS shell操作HDFS提供shell命令行客户端，使用方法如下：2 、命令行客户端支持的命令参数[-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp [-R] G...

原创 2018-11-07 15:32:22 · 427 阅读 · 0 评论
Hadoop 集群中运行MapReduce的一些必要知识

目录 1、 hadoop集群各主机时间要一致2、 yarn的聚合日志3、 awk（sed）和 mr1、 hadoop集群各主机时间要一致时间同步：1、date -s ""2、基于ntp服务的时间同步 (c/s)3、将配置好的ntp用脚本做定时任务rpm -q ntp 查询是否安装ntp配置：选择作为ntpserver的服务器进行配置vi /etc/n...

原创 2018-11-09 08:52:32 · 521 阅读 · 0 评论
HDFS工作机制详解

1 、HDFS概述 HDFS集群分为两大角色：NameNode、DataNode NameNode负责管理整个文件系统的元数据 DataNode 负责管理用户的文件数据块block 文件会按照固定的大小（blocksize）切成若干块后分布式存储在若干台datanode上每一个文件块可以有多个副本，并存放在不同的datanode上 Da...

原创 2018-11-07 15:59:06 · 669 阅读 · 0 评论
HDFS基本概念----初识HDFS

目录 1 、HDFS的介绍2、 HDFS设计目标3、 HDFS的特点4、 hdfs核心设计思想及作用5、重要特性如下：1 、HDFS的介绍源自于Google的GFS论文发表于2003年10月 HDFS是GFS克隆版，HDFS的全称是Hadoop Distributed File System易于扩展的分布式文件系统，运行在大量普通廉价机器上，提供容错机制，为大...

原创 2018-11-07 15:11:35 · 712 阅读 · 0 评论
结合案例讲解MapReduce重要知识点 ---------- Combiner

combiner是MR程序中Mapper和Reducer之外的一种组件 combiner组件的父类就是Reducer combiner和reducer的区别在于运行的位置： Combiner是在每一个maptask所在的节点运行 Reducer是接收全局所有Mapper的输出结果； combiner的意义就是对每一个maptask的输出进行...

原创 2018-11-09 08:53:49 · 407 阅读 · 0 评论
Hadoop详解 ----------- shuffle原理、partitioner分区原理、Combiner编程、常见的MR算法

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/u013087513/article/details/77799686 Partitioner编程Partition简介shuffle是通过分区partitioner ...

转载 2018-11-12 09:17:14 · 560 阅读 · 0 评论
Hadoop回收站trash

Hadoop回收站trash，默认是关闭的。建议最好还是把它提前开开，否则误操作的时候，就欲哭无泪了修改conf/core-site.xml,增加复制代码 <property> <name>fs.trash.interval</name> <value>1440</value> <description&...

原创 2018-11-07 17:56:37 · 536 阅读 · 0 评论
Hive的独立安装模式（使用MySql做元数据存储）

安装MySQL服务器端和MySQL客户端，并启动mysql服务。在min1上为Hive建立相应的MySQL账户，并赋予足够的权限create user 'hive' identified by '123456';GRANT ALL PRIVILEGES ON *.* TO hive@'%' IDENTIFIED BY '123456' with grant option;GRANT ...

原创 2018-11-11 17:33:53 · 439 阅读 · 0 评论
NameNode详解

目录 1、NameNode的功能2、 NameNode 启动过程3、 NameNode元数据管理4、安全模式1、NameNode的功能负责客户端请求的响应元数据的管理（查询，修改） 2、 NameNode 启动过程 NameNode启动的时候首先将fsimage（镜像）载入内存，并执行（replay）编辑日志editlog的的各项操作 ...

原创 2018-11-08 09:32:17 · 10038 阅读 · 0 评论
结合案例讲解MapReduce重要知识点 --------- MapReduce各组件之间数据传递

简单说就是在map中设置一个值，在reduce中能够获得这个值 import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache...

原创 2018-11-11 17:32:56 · 740 阅读 · 0 评论
Hive的安装 ------ hive的单机安装（使用derby做元数据存储）

安装包准备将hive安装包 apache-hive-1.2.1-bin.tar.gz 上传到虚拟机/bigdata/下 JDK安装包 jdk-8u151-x64.gz 集群的准备（min1,min2,min3） hive的解压安装将上传的hive解压缩至虚拟机/app目录下 tar -zxvf /app/apache-hive-1.2.1-bin.tar.g...

原创 2018-11-11 17:34:04 · 551 阅读 · 0 评论
Hive --------- hive补充知识

补充：对于“正则表达式”和“解析json”、”解析xml”需要大家自己学习掌握好这些知识点。自定义函数类别UDF 作用于单个数据行，产生一个数据行作为输出。（数学函数，字符串函数）UDAF（用户定义聚集函数）：接收多个输入数据行，并产生一个输出数据行。（count，max） UDF开发实例 0、先导入相应的jar包（位置当天资料里面software/l...

原创 2018-11-13 09:35:39 · 457 阅读 · 0 评论
结合案例讲解MapReduce重要知识点 ---------------- partition分区

Mapreduce中会将map输出的kv对，按照相同key分组，然后分发给不同的reducetask默认的分发规则为：根据key的hashcode%reducetask数来分发，所以：如果要按照我们自己的需求进行分组，则需要改写数据分发（分组）组件Partitioner。自定义一个CustomPartitioner继承抽象类：Partitioner 然后在job对象中，设置自定义...

原创 2018-11-09 08:52:58 · 764 阅读 · 0 评论
Zookeeper java API的使用

目录 1、 eclipse环境配置.2 、基本操作3、监听集群中主机的上下线1、 eclipse环境配置普通的java项目创建一个java项目依赖的jar包 zookeeper-3.4.7\lib下的 jline-0.9.94.jar log4j-1.2.15.jar netty-3.2.2.Final.jar slf...

原创 2018-11-08 09:33:54 · 393 阅读 · 0 评论
hive ---- hive常见查询语句练习（有一定难度的）

练习题和sql语句基础sql语句统计每个学生的总分。统计出学号和总分 select s_id , sum(s_score) as zf from score group by s_id上表结果和stuent做join连接select stu.s_name,zf.ss from(select s_id , sum(s_score) as ss from s...

原创 2018-11-12 20:43:14 · 3117 阅读 · 0 评论
结合案例讲解MapReduce重要知识点 ------- 两个表的简单join操作

待处理数据内容如下表1： child parent 张三王阿姨张三张大叔张张王阿姨张张张大叔王阿姨王奶奶王阿姨王大爷张大叔张奶奶张大叔张大爷处理后的数据内容如下输出数据：grandchild grandparent *张三张大爷 *张三张奶奶 *张三王奶奶 *张三王大爷 *张张张大爷 *张张张奶奶 ...

原创 2018-11-10 09:48:05 · 1410 阅读 · 0 评论
结合案例讲解MapReduce重要知识点 -------- 过滤敏感词汇

一篇文章 article.txt 内容如下：We ask that you please do not send us emails privately asking for support. We are non-paid volunteers who help out with the project and we do not necessarily have the time o...

原创 2018-11-09 08:53:40 · 1726 阅读 · 1 评论
Hive ------- hive常用函数参考

函数分类HIVE CLI命令显示当前会话有多少函数可用 SHOW FUNCTIONS;显示函数的描述信息 DESC FUNCTION concat;显示函数的扩展描述信息 DESC FUNCTION EXTENDED concat;简单函数函数的计算粒度为单条记录。关系运算数学运算逻辑运算数值计算类型转换日期函数条件函数字符串函数统计函数聚合函...

原创 2018-11-12 09:17:52 · 587 阅读 · 0 评论
Hive入门 ------ Hive是什么，产生背景

一、hive产生背景Apache Hive数据仓库软件可以使用SQL方便地阅读、编写和管理分布在分布式存储中的大型数据集。结构可以投射到已经存储的数据上。提供了一个命令行工具和JDBC驱动程序来将用户连接到Hive。由Facebook开源，最初用于解决海量结构化的日志数据统计问题 MapReduce编程的不便性 HDFS上的文件缺少Schema（字段名，字段类型等）...

原创 2018-11-11 17:33:44 · 2276 阅读 · 0 评论
结合案例讲解MapReduce重要知识点 ------------- 去除重复

去除文件中重复的行import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;...

原创 2018-11-09 08:53:29 · 1297 阅读 · 0 评论
结合案例讲解MapReduce重要知识点 --------- 多个job之间有序执行

每一个MapReduce程序都封装成一个job，而多个job之间呢？后一个job输入的数据，就是前一个job的输出的数据。本节就是演示这种场景：顺序执行两个job执行是有先后顺序的 import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoo...

原创 2018-11-11 17:33:21 · 847 阅读 · 0 评论
HADOOP HA概述

目录 1、背景2、 HA(High Available)概念1、背景在Hadoop 2.0.0之前，NameNode是HDFS集群中的单点故障（SPOF）。每个群集都有一个NameNode，如果该机器或进程不可用，整个群集将不可用，直到NameNode重新启动或在单独的计算机上启动为止。这在两个主要方面影响了HDFS集群的总体可用性：在计划外事件（例如机器崩溃）...

原创 2018-11-08 09:34:11 · 495 阅读 · 0 评论
结合案例讲解MapReduce重要知识点 ------- 排序找出每一组中的最大值（中间结果不在内存中）

功能：同内存排序求最大值，只是中间结果不在内存中，避免了数量过大造成内存溢出的问题。知识点分组比较器的使用 job.setGroupingComparatorClass(GroupingComparator.class);自定义mr类SSDataimport java.io.DataInput;import java.io.DataOutput;import java.i...

原创 2018-11-10 09:45:44 · 789 阅读 · 0 评论
结合案例讲解MapReduce重要知识点 --------- 多表连接

第一张表的内容：login：uid sexid logindate1 1 2017-04-17 08:16:202 2 2017-04-15 06:18:203 1 2017-04-16 05:16:244 2 2017-04-14 03:18:205 1 2017-04-13 02:16:256 2 2017-04-13 01:15:207 1 20...

原创 2018-11-10 10:10:33 · 1015 阅读 · 0 评论
Hive ----------- hive的基本命令

1.数据库的创建：本质上是在hdfs上创建一个目录，使用comment加入数据库的描述信息，描述信息放在引号里。数据库的属性信息放在描述信息之后用with dbproperties 加入，属性信息放在括号内，属性名和属性值放在引号里，用等号连接有多条属性用逗号分隔##创建一个数据库名为myhive,加入描述信息及属性信息create database myhive comment ...

原创 2018-11-11 17:34:32 · 360 阅读 · 0 评论
结合案例讲解MapReduce重要知识点 ------ 获取文件名

在map运行时获取被处理数据所在文件的文件名import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io....

原创 2018-11-09 08:53:19 · 503 阅读 · 0 评论
Shuffle机制运行原理

2.4.1&nbsp;概述1）mapreduce中，map阶段处理的数据如何传递给reduce阶段，是mapreduce框架中最关键的一个流程，这个流程就叫shuffle；2）shuffle:&nbsp;洗牌、发牌（核心机制：数据分区、排序、缓存）；3）具体来说：就是将maptask输出的处理结果数据，分发给reducetas...

转载 2018-11-07 11:52:38 · 639 阅读 · 0 评论
MapReduce数据类型

MapReduce数据类型都实现了Writable接口，以便用这些类型定义的数据可以被序列化进行网络传输和文件存储基本数据类型： BooleanWriable：标准布尔型数 ByteWriable：单字节数 DoubleWriable：双字节数值 FloatWriable：浮点数 IntWriable：整型数 LongWriable：长整...

原创 2018-11-12 09:15:59 · 1879 阅读 · 0 评论
Hive --------- hive 的优化

1、表的优化在表的优化中第一点：当数据量比较大的时候常用的手段就是拆分比表，大表拆小表，分区表，临时表，外部表小表和大表join，要把数据量小的表放在join的左边，先进行缓存，这样减少表join的时候可以减少内存的消耗量 2、数据倾斜数据倾斜产生的原因为分区之后某一个reduce运算的数量比较小，而某一个reduce的数量比较大的时候，造成两个reduce处理数据不平等合...

原创 2018-11-12 20:08:51 · 480 阅读 · 0 评论
结合案例讲解MapReduce重要知识点 ----------- 倒排序

需求：文章及其内容： index.html : hadoop is good hadoop hadoop is ok page.html : hadoop has hbase hbase is good hbase and hive content.html : hadoop spark hbase are good ok输出： and page.html:1 are content...

原创 2018-11-09 08:53:58 · 912 阅读 · 0 评论
Hive --------- hive的数据类型

目录 1.基本数据类型 2.复杂数据类型3.数据类型应用举例4.列的分割符1.基本数据类型类型描述示例 TINYINT 1字节有符号整数 1 SMALLINT 2字节有符号整数 1 INT 4字节有符号整数 1 BIGINT 8字节有符号整数 1 FLOAT ...

原创 2018-11-11 17:34:23 · 376 阅读 · 0 评论
结合案例讲解MapReduce重要知识点 --------- 简单排序

import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org....

原创 2018-11-10 08:49:41 · 254 阅读 · 0 评论
结合案例讲解MapReduce重要知识点 ---------- 多文件输出

将MR处理后的结果数据输出到多个文件中import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Pa...

原创 2018-11-09 08:53:08 · 427 阅读 · 0 评论
结合案例讲解MapReduce重要知识点 --------- MapReduce中压缩设置

MapReduce中reduce执行完后，输出处理后的数据文件，那么该文件是可以被进行压缩处理的。 import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;...

原创 2018-11-11 17:33:10 · 567 阅读 · 0 评论
Zookeeper java API的使用

1 eclipse环境配置普通的java项目创建一个java项目依赖的jar包zookeeper-3.4.7\lib下的 jline-0.9.94.jar log4j-1.2.15.jar netty-3.2.2.Final.jar slf4j-api-1.6.1.jar slf4j-log4j12-1.6.1.jarzookeeper-3.4.7\zookeeper-3....

原创 2018-11-06 19:56:20 · 2198 阅读 · 0 评论
zookeeper集群的配置

目录 1、集群安装2、集群的启动3、集群的测试使用1、集群安装Zookeeper使用java编写，运行在jvm上，所以需要提前安装并配置好好java环境，推荐Oracle jdk1.7及以上版本。官网：http://zookeeper.apache.org/ 下载地址：http://apache.opencas.org/zookeeper/ 从官方...

原创 2018-11-08 09:33:32 · 2210 阅读 · 0 评论
基于Zookeeper的分布式锁

实现分布式锁目前有三种流行方案，分别为基于数据库、Redis、Zookeeper的方案，其中前两种方案网络上有很多资料可以参考，本文不做展开。我们来看下使用Zookeeper如何实现分布式锁。什么是Zookeeper？Zookeeper（业界简称zk）是一种提供配置管理、分布式协同以及命名的中心化服务，这些提供的功能...

转载 2018-11-30 11:55:08 · 384 阅读 · 0 评论
zookeeper详解

目录 1、什么是zookeeper2、 zookeeper服务的应用场景3、 zookeeper集群特性4、 zookeeper数据结构5、节点类型6、 Zookeeper 数据结构特点7、如何使用1、什么是zookeeper Zookeeper是一个分布式协调服务；就是为用户的分布式应用程序提供协调服务 zookeeper是为别的分布式程...

原创 2018-11-08 09:32:58 · 2319 阅读 · 0 评论
Hadoop伪分布式、分布式环境搭建

在一台机器上实现伪分布式hadoop环境的搭建。ADOOP集群规划主机名（hostname）安装软件运行进程 pdm hadoop-2.7.1 nameNode、resourceManager、datanode、nodemanager、secondary namenode HADOOP集群安装步骤下面步骤以root用户登陆系统，来...

原创 2018-11-06 21:12:11 · 2480 阅读 · 0 评论