复姓独孤-CSDN博客

原创 flume日志采集

目录标题1.Flume 概述1.1 Flume1.2Flume 基础架构1.2.1 Agent1.2.2 Source1.2.3 Sink1.2.4 Channel1.2.5 Event2.Flume 快速入门2.1 Flume 安装部署2.1.1 安装地址2.1.2 安装部署1.Flume 概述1.1 FlumeFlume 是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构，灵活简单。1.2Flume 基础架构1.2

2020-08-20 09:02:07 912

原创 flume面试真题

1.你是如何实现 Flume 数据传输的监控的使用第三方框架 Ganglia 实时监控 Flume2 Flume 的 Source，Sink，Channel 的作用？你们 Source 是什么类型？1、作用（1）Source 组件是专门用来收集数据的，可以处理各种类型、各种格式的日志数据，包括 avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy（2）Channel 组件对采集到的

2020-08-19 15:59:13 332

原创 hive（七）蚂蚁金服笔试题详解

目录标题背景说明题目一：解题步骤数据处理分步操作题目二分步骤处理解法一解法二背景说明以下表记录了用户每天的蚂蚁森林低碳生活领取的记录流水。table_name：user_low_carbonuser_id data_dt low_carbon用户日期减少碳排放（g）数据：u_001 2017/1/1 10u_001 2017/1/2 150u_001 2017/1/2 110u_001 2017/1/2 10u_001 2017/1/4 50u_001 2

2020-08-03 19:24:10 1047

转载 hive(六)企业级优化策略

文章目录一、Hadoop 框架计算特性二、优化常用手段三、排序选择四、怎样做笛卡尔积五、怎样写 in/exists 语句六、设置合理的 maptask 数量七、小文件合并八、设置合理的 reduceTask 的数量九、合并 MapReduce 操作十、合理利用分桶：Bucketing 和 Sampling十一、合理利用分区：Partition十二、Join 优化十三、Group By 优化1、Map 端部分聚合2、使用 Group By 有数据倾斜的时候进行负载均衡十四、合理利用文件存储格式十五、本地模式执

2020-07-31 19:46:02 574

原创 hive（五）函数2详解（自定义函数）

目录标题1.系统内置函数2.自定义函数2.1自定义 UDF 函数2.2 自定义 UDTF 函数1.系统内置函数1）查看系统自带的函数hive (default)> show functions;2）显示自带的函数的用法hive (default)> desc function 函数名;3）详细显示自带的函数的用法hive (default)> desc function extended 函数名;通常不会用直接百度，而不是用这个。2.自定义函数1）Hive 自带了一

2020-07-31 15:26:06 467

原创 hive（四）函数详解1（内有窗口函数详解）

目录标题1.常用查询函数1.1 空字段赋值1.2 时间类1.3 CASE WHEN1.4 行转列1.5 列转行1.6 窗口函数1.常用查询函数1.1 空字段赋值1）函数说明NVL：给值为 NULL 的数据赋值，它的格式是 NVL( string1,replace_with)。它的功能是如果string1 为 NULL，则 NVL 函数返回 replace_with 的值，否则返回 string1 的值，如果两个参数都为 NULL ，则返回 NULL。2）数据准备：采用员工表3）查询：如果员工的

2020-07-30 10:24:20 2742

原创 hive（三）hive查询详解

目录标题查询语句语法1.基本查询1.1 全表和特定列查询1.2 列别名1.3算术运算符1.4 常用函数1.5 Limit 语句2.where语句2.1 比较运算符（Between/In/ Is Null）2.2Like 和 RLike2.3 逻辑运算符（And/Or/Not）3.分组3.1Group By 语句3.2 Having 语句4.Join 语句4.1 等值 Join4.2表的别名4.3 内连接4.4 左外连接4.5 右外连接4.6 满外连接4.7 多表连接4.8 笛卡尔积4.9 连接谓词中不支持

2020-07-26 10:04:32 1559

原创 hive（二）DDL和DML（详细且易懂）！！！

目录标题第 4 章 DDL 数据定义4.1 创建数据库4.2 查询数据库4.2.1 显示数据库4.2.3 切换当前数据库4.3 修改数据库4.4 删除数据库4.5创建表4.5.1 管理表第 4 章 DDL 数据定义4.1 创建数据库1）创建一个数据库，数据库在 HDFS 上的默认存储路径是/user/hive/warehouse/*.db。hive (default)> create database db_hive;2）避免要创建的数据库已经存在错误，增加 if not exists 判

2020-07-25 20:16:50 1412

转载 MySQL5.7 在Windows7下安装

mysql 5.7安装教程本篇文章介绍的是mysql5.7安装教程！环境：Windows类型：msiMysql安装包可以去官网下载 mysql官网下载也可以加入我们群聊下载（群文件mysql文件夹下），Q群号：697614838（内有各种干货）另外，加入群聊也可以远程安装文章目录mysql 5.7安装教程视频教程准备安装包安装步骤第一步·同意协议第二步·选择手动安装第三步·选择安装的内容第四步·Execute第五步·弹出 Visual 安装页面第六步·安装Mysql Server第七步·Nex

2020-07-23 09:21:16 424

原创安装hive并配置mysql5.7作为元数据库时的坑

ssl的warning解除出现警告：Thu Jul 16 10:45:22 CST 2020 WARN: Establishing SSL connection without server’s identity verification is not recommended. According to MySQL 5.5.45+, 5.6.26+ and 5.7.6+ requirements SSL connection must be established by default if expli

2020-07-16 11:09:56 231

原创 hive（一）hive入门、原理、安装及数据类型

目录标题第 1 章 Hive 基本概念1.1 什么是 Hive1.2 Hive 的优缺点1.2.1 优点1.2.2 缺点1.3 Hive 架构原理1.4 Hive 和数据库比较1.4.1 查询语言1.4.2 数据存储位置1.4.3 数据更新1.4.4 索引1.4.5 执行1.4.6 执行延迟1.4.7 可扩展性1.4.8 数据规模第 2 章 Hive 安装2.1 Hive 安装地址2.2 Hive 安装部署2.3 将本地文件导入 Hive 案例2.4 MySql 安装2.5 Hive 元数据配置到 MySq

2020-07-15 22:45:40 856

原创进入hive后不能退格，删除解决办法

将终端改为linux即可！

2020-07-14 21:46:48 545

原创大数据技术生态体系

大数据技术生态体系1）Sqoop：sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle 等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。2）Flume：Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简

2020-07-14 10:29:56 121

原创 log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFact

报错：解决办法：1、在src/main/resources目录下创建log4j.properties内容：hadoop.root.logger=DEBUG...

2020-07-14 00:43:55 5881 1

转载 DeBug调试解决在跑MapReduce程序时，出现Caused by: java.lang.ArrayIndexOutOfBoundsException: 1（数组越界异常）问题

在跑MapReduce程序时，出现了Caused by: java.lang.ArrayIndexOutOfBoundsException: 1（数组越界异常）分析过程：从这些提示信息中可以获取如下信息：1、错误发生在17行，找到对应行2、发生错误的时候，下标的值为1接下来分析为什么下标值为什么是1时出现越界，就可以解决了...

2020-07-14 00:16:40 3089

转载 Secondary NameNode存在的意义，与NameNode的区别

前言最近刚接触Hadoop, 一直没有弄明白NameNode和Secondary NameNode的区别和关系。很多人都认为，Secondary NameNode是NameNode的备份，是为了防止NameNode的单点失败的，直到读了这篇文章Secondary Namenode - What it really do? (...

2020-07-12 19:31:27 562

原创从零开始搭集群

目录标题前期虚拟机环境搭建集群配置开始1.克隆的虚拟机改IP和主机名，每克隆一台都要改ip地址和主机名2.搞一个分发脚本xsync3.配置免密登陆4.在一台机器上安装Java和Hadoop，并配置环境变量，并分发到集群其他机器.4.1 安装jdk4.2 安装Hadoop4.3快速分发hadoop和java开始配置文件的修改集群启动/停止方式总结注意：前期虚拟机环境搭建内存2G，硬盘50G NAT模式1.安装好linux选择centos7映像文件2.启动centos分区如下/boo

2020-07-12 18:38:34 529

转载 CentOS 7安装教程

CentOS 7安装教程：准备：软件：VMware Workstation 镜像文件：CentOS-7-x86_64-bin-DVD1.iso （附：教程较为详细，注释较多，故将操作的选项进行了加粗字体显示。） 1、文件--新建虚拟机--自定义 2、硬盘兼容性--默认 3、稍后安装操作系统（需要在虚拟机安装完成之后，删除不需要的硬件，所以稍后安装操作系统） 4、选择客户端操作系统：客户机操作系统--Linux &nbs

2020-07-11 16:48:07 288

转载 VMTools安装及使用

1．什么是VMtoolsVM tools顾名思义就是Vmware的一组工具。主要用于虚拟主机显示优化与调整，另外还可以方便虚拟主机与本机的交互，如允许共享文件夹...

2020-07-11 15:57:23 2058

原创 Zookeeper的安装及配置

目录标题第1章 Zookeeper入门1.1 概述1.2 特点1.3 数据结构1.4 应用场景1.5 下载地址第2章 Zookeeper安装2.1 本地模式安装部署第1章 Zookeeper入门1.1 概述Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目Zookeeper工作机制1.2 特点1）Zookeeper：一个领导者（leader），多个跟随者（follower）组成的集群。2）Leader负责进行投票的发起和决议，更新系统状态3）Foll

2020-07-11 11:40:05 1110

原创 hadoop（六）hadoop数据压缩、yarn架构及工作原理、hadoop企业优化

目录标题第4章 Hadoop数据压缩4.1 概述4.2MR支持的压缩编码4.3 压缩方式选择4.3.1 Gzip压缩4.3.2 lzo压缩4.3.3 snappy压缩4.3.4 bzip2压缩4.3.5 如何选择压缩格式？4.4 采用压缩的位置4.5 压缩配置参数4.6 压缩实操案例4.6.1 数据流的压缩和解压缩4.6.2 Map输出端采用压缩4.6.3 Reduce输出端采用压缩第5章 Yarn资源调度器5.1 Yarn基本架构5.3 Yarn工作机制5.4 作业提交全过程5.5 资源调度器5.6 任务

2020-07-10 11:02:49 705

原创 yarn架构及工作机制

Yarn基本架构YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成，如图所示:Yarn工作机制注意下图有一个MRAPPMasterMRAppMaster是MapReduce的ApplicationMaster实现，它使得MapReduce计算框架可以运行于YARN之上。在YARN中，MRAppMaster负责管理MapReduce作业的生命周期，包括创建MapReduce作业，向ResourceManager申

2020-07-10 09:33:28 242

原创 hadoop（五）MapReduce框架原理及工作机制

文章目录第三章 MapReduce框架原理3.1 InputFormat数据输入3.1.1 切片与MapTask并行度决定机制3.1.2 Job提交流程源码和切片源码详解3.1.3 FileInputFormat切片机制3.1.4CombineTextInputFormat切片机制3.1.5FileInputFormat实现类3.1.9 自定义InputFormat3.1.10 自定义InputFormat案例实操3.2MapReduce工作流程3.3 Shuffle机制3.3.1 Shuffle机制3.3

2020-07-07 15:12:42 645

原创 hadoop（四）MapReduce入门及序列化实操

文章目录第一章 MapReduce概述1.1 MapReduce定义1.2 MapReduce优缺点1.2.1 优点1.2.2 缺点1.3 MapReduce核心思想1.4 MapReduce进程1.5 官方WordCount源码1.6 常用数据序列化类型1.7 MapReduce编程规范（八股文）1.8WordCount案例实操第2章 Hadoop序列化2.1序列化概述2.1.1 为什么要序列化？2.1.2 什么是序列化？2.1.3 为什么不用Java的序列化？2.1.4 为什么序列化对Hadoop很重要

2020-07-07 15:12:19 218

原创用mapreduce怎么处理数据倾斜问题

数据倾斜：map /reduce程序执行时，reduce节点大部分执行完毕，但是有一个或者几个reduce节点运行很慢，导致整个程序的处理时间很长，这是因为某一个key的条数比其他key多很多（有时是百倍或者千倍之多），这条key所在的reduce节点所处理的数据量比其他节点就大很多，从而导致某几个节点迟迟运行不完，此称之为数据倾斜。解决方法：1.提前在 map 进行 combine，减少传输的数据量在 Mapper 加上 combiner 相当于提前进行 reduce，即把一个 Mapper 中.

2020-07-07 14:13:58 766

原创 MapReduce工作流程详解

MapReduce工作流程1.由程序内的InputFormat(默认实现类TextInputFormat)来读取外部数据，它会调用RecordReader(它的成员变量)的read()方法来读取，返回k,v键值对。2.读取的k,v键值对传送给map()方法，作为其入参来执行用户定义的map逻辑。3.context.write方法被调用时，outputCollector组件会将map()方法的输出结果写入到环形缓冲区内。4.环形缓冲区其实就是一个数组，后端不断接受数据的同时，前端数据不断被溢出，长度

2020-07-06 20:40:55 822

原创 Shuffle机制详解

Shuffle机制Map方法之后，Reduce方法之前的数据处理过程称之为Shuffle。如图：具体Shuffle过程详解，如下：1）MapTask收集我们的map()方法输出的kv对，放到内存缓冲区中2）从内存缓冲区不断溢出本地磁盘文件，可能会溢出多个文件3）多个溢出文件会被合并成大的溢出文件4）在溢出过程及合并的过程中，都要调用Partitioner进行分区和针对key进行排序5）ReduceTask根据自己的分区号，去各个MapTask机器上取相应的结果分区数据6）ReduceTa

2020-07-06 20:17:38 270

原创 ReduceTask工作机制详解

ReduceTask工作机制1．ReduceTask工作机制（1）Copy阶段：ReduceTask从各个MapTask上远程拷贝一片数据，并针对某一片数据，如果其大小超过一定阈值，则写到磁盘上，否则直接放到内存中。（2）Merge阶段：在远程拷贝数据的同时，ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并，以防止内存使用过多或磁盘上文件过多。（3）Sort阶段：按照MapReduce语义，用户编写reduce()函数输入数据是按key进行聚集的一组数据。为了将key相同的数

2020-07-06 20:15:12 476

原创 MapTask工作机制详解

MapTask工作机制（1）Read阶段：MapTask通过用户编写的RecordReader，从输入InputSplit中解析出一个个key/value。（2）Map阶段：该节点主要是将解析出的key/value交给用户编写map()函数处理，并产生一系列新的key/value。（3）Collect收集阶段：在用户编写map()函数中，当数据处理完成后，一般会调用OutputCollector.collect()输出结果。在该函数内部，它会将生成的key/value分区（调用Partitione

2020-07-06 20:14:03 261

原创 hdfs架构理解

HDFS组成架构1）Client：就是客户端。（1）文件切分。文件上传 HDFS 的时候，Client 将文件切分成一个一个的Block，然后进行存储。（2）与NameNode交互，获取文件的位置信息。（3）与DataNode交互，读取或者写入数据。（4）Client提供一些命令来管理HDFS，比如启动或者关闭HDFS。（5）Client可以通过一些命令来访问HDFS。2）NameNode：就是Master，它是一个主管、管理者。（1）管理HDFS的名称空间。（2）管理数据块（Bloc

2020-07-06 19:57:40 177

转载 idea开发常用快捷键汇总

Ctrl快捷键介绍 Ctrl + F 在当前文件进行文本查找（必备） Ctrl + R 在当前文件进行文本替换（必备） Ctrl + Z 撤销（必备） Ctrl + Y 删除光标所在行或删除选中的行（必备） Ctrl + X 剪切光标所在行或剪切选择内容 C...

2020-07-06 12:41:56 107

转载 java集合进行排序的两种方式--自然排序和定制排序

java集合的工具类Collections中提供了两种排序的方法,分别是:Collections.sort(List list)Collections.sort(List list,Comparator c)第一种称为自然排序,参与排序的对象需实现comparable接口,重写其compareTo()方法,方法体中实现对象的比较大小规则,示例如下: 实体类:(基本属性,getter/setter方法,有参无参构造方法,toString方法)package test;public class

2020-07-06 10:05:43 975

原创字符串反转的四种方法（通俗易懂）

1,利用字符串的拼接(charAt()方法),把后遍历出来的放在前面即可实现反转public static String charAtReverse (Stri...

2020-07-06 09:49:22 5529

原创 hadoop（三）hdfs的NameNode和DataNode工作机制

文章目录1. NameNode和SecondaryNameNode（面试开发重点）1.1 NN和2NN工作机制1.1.1引言1.1.2 具体工作机制介绍1.1.3 NN和2NN工作机制详解：1.2 Fsimage和Edits解析1.2.1oiv查看Fsimage文件1.2.2oev查看Edits文件1.3 chkpoint时间设置1.4 NameNode故障处理1.5 集群安全模式1.5.1概述1.5.2基本语法1.6 NameNode多目录配置2.DataNode（面试开发重点）2.1 DataNode

2020-07-01 23:37:13 772

转载大数据面试题真题

目录一.Hadoop1.hdfs写流程2.hdfs读流程3.hdfs的体系结构4.一个datanode 宕机,怎么一个流程恢复5.hadoop 的 namenode 宕机,怎么解决6.namenode对元数据的管理7.元数据的checkpoint8.yarn资源调度流程 9.hadoop中co...

2020-07-01 15:29:35 1550

原创拓扑距离和机架感知

在HDFS写数据的过程中，NameNode会选择距离待上传数据最近距离的DataNode接收数据。那么这个最近距离怎么计算呢？节点距离：两个节点到达最近的共同祖先的距离总和。（说白了就是说直线，从你到我的最近距离）最近的选完了，之后如何选第二第三个呢？官方说明（机架感知说明）一般来说，当副本数为三，HDFS的放置策略是把一个节点上的一个副本在本地机架，另一个在本地机架的不同节点，最后在不同机架中的不同节点上。...

2020-07-01 00:55:26 312

原创 hadoop（二）HDFS概述、shell操作、客户端操作（各种API操作）以及hdfs读写流程

文章目录第一章HDFS概述1.1 HDFS产生背景1.2 HDFS概念1.3 HDFS优缺点1.3.1 优点1.3.2 缺点1.4 HDFS组成架构1.5 HDFS文件块大小（面试重点）第2章 HDFS的Shell操作（开发重点）2.1 基本语法2.2 hadoop fs常用命令第3章 HDFS客户端操作（开发重点）3.1 HDFS客户端环境准备第一章HDFS概述1.1 HDFS产生背景随着数据量越来越大，在一个操作系统管辖的范围内存不下了，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理

2020-07-01 00:54:49 509

原创 HDFS读写流程（超级详细又通俗易懂）

首先，两个重要概念：NameNode：领导级别。管理数据块映射；处理客户端的读写请求；配置副本策略；管理HDFS的名称空间； DataNode：员工级别。负责存储客户端发来的数据块block；执行数据块的读写操作。写流程写详细步骤：1、首先向namenode通信，请求上传文件，namenode检查目标文件是否已存在，父目录是否存在，还得看看是否有上传的权限，说白了，就是判断是否可以上传2、namenode返回是否可以上传，如果可以，client会先对文件进行切分（逻辑切分）3.

2020-07-01 00:54:13 2500

转载 hadoop2.x常用端口

端口Hadoop集群的各部分一般都会使用到多个端口，有些是daemon之间进行交互之用，有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多，完全记不住哪个端口对应哪个应用，特收集记录如此，以便查询。这里包含我们使用到的组件：HDFS, YARN, HBase, Hive, ZooKeeper:组件节点默认端口配置用途说明HDFSDataNode50010dfs.datanode...

2020-06-30 22:48:34 685

原创 hadoop（一）入门、hadoop架构、集群环境搭建

文章目录第一章Hadoop简介1.1Hadoop是什么1.2发展历史1.3 Hadoop三大发行版本1.4 Hadoop的优势（4高）1.5Hadoop组成（面试重点）1.5.1 HDFS架构概述1.5.2 YARN架构概述1.5.3 MapReduce架构概述1.6 大数据技术生态体系1.7 推荐系统框架图（简图，之后还介绍）第二章Hadoop运行环境搭建（开发重点）2.1 虚拟环境准备2.2 安装jdk2.3 安装HadoopHadoop目录结构第3章 Hadoop运行模式3.1 本地运行模式3.1.1

2020-06-29 23:39:38 442

空空如也

空空如也