小猿天地-CSDN博客

原创 Flink算子传输策略深度解析

主要对于Flink算子八种传输策略进行详细介绍，以及介绍各种传输策略的设置方式、使用条件等

2025-01-10 16:48:11 885

原创 HIVE基础-文件存储格式

对 HIVE 文件四种主要存储格式（textfile、sequencefile、orc、parquet）进行详细介绍

2022-11-03 22:37:02 2479

原创 HIVE函数汇总--日期函数篇

对Hive 27个日期函数的详细介绍

2022-10-25 00:16:13 4652

原创 Hadoop小文件的优化方案

分析Hadoop小文件过多带来的危害，以及解决小文件的方法。

2022-10-21 00:03:31 1718

原创 Hadoop压缩方式介绍

hadoop压缩方式介绍，gzip\bzip2\snappy\lzo

2022-10-16 22:27:43 1842

目录Hadoop 之 Shuffle 机制详解Shulffle 含义Shuffle 图解官方图解简化图解Shuffle详解Map 溢写溢出数据Reduce 拉取数据Hadoop 之 Shuffle 机制详解Shulffle 含义在 Hadoop 中数据从 Map 阶段传递给 Reduce 阶段的过程叫 Shuffle，Shuffle 是整个 MapReduce 框架中最核心的部分。Shuffle 将数据从 Map 阶段输入到 Reduce 阶段的过程，所以 Shuffle 的作用范围是Map阶

2022-01-06 22:40:58 4136

原创 HIVE函数汇总--开窗函数篇

详细介绍开窗函数的思路及其用法

2022-01-04 17:29:30 13242 1

原创 HIVE操作语句--DML篇

HIVE-DML操作语言汇总

2021-09-26 14:11:00 816

原创 HIVE操作语句--DDL篇

HIVE-DDL数据定义语言汇总

2021-09-16 15:29:41 1556

原创 Linux基础

目录LinuxLinux基础一、VM三种网络工作模式二、文件类型三、文件目录四、null黑洞和zero空文件五、管道命令六、查找文件命令七、文件的特殊权限八、查看命令九、sort命令十、tar命令十一、uptime、top命令(必会)十二、losf 命令十三、Linux进程的基本状态十四、硬链接与软链接十五、Linux的计划任务十六、Linux网络的相关调试命令十七、SHELL变量备用基础Linux快捷键设计默认启动级别基础命令用户配置文件误删用户家目录误删 /etc/passwd 目录文档乱码文档换行vi

2021-08-23 20:45:24 1000

原创线程进程还不会？精简文章一篇懂

目录进程与线程进程概念组成结构通信方法线程概念线程之间的关系进程与线程的区别进程与线程进程概念进程是具有一定独特功能的程序关于某个数据集合上的一次运行活动，进程是系统进行资源分配和调度的一个单位。组成进程是一个实体。每一个进程都有自己的地址空间，包括文本区域、数据区域和堆栈。文本区域存储处理器执行的代码；数据区域存储变量和进程执行期间使用的动态分配的内存；堆栈区域存储这活动过程调用的指令和本地变量。结构进程由程序、数据和进程控制块三部分组成。通信方法方式说明

2021-08-17 22:46:44 374

原创了解三种List的区别

ArrayList ArrayList 是 List 实现类，内部通过数组实现，它允许对元素进行快速随机访问。优点：查询快，修改快；缺点：增删慢。原因在于索引。1）数组的缺点是每个元素之间不能有间隔，当数组大小不满足时需要增加存储能力，会在原始大小上扩容1.5倍，将已经有数组的数据复制到新的存储空间。2）当 ArrayList 的中间位置插入或者删除元素时，需要对数组进行复制、移动，代价比较高。适合随机查找和遍历，不适合插入和删除。Vector Vector 与 ArrayList 一样

2021-06-25 21:38:27 1344

原创闲聊String、StringBuffer、StringBuilder那些事！面试必备！！

浅谈 String s = “hello” 与 String s = new String(“hello”) 的区别String s = “hello” 与 String s = new String(“hello”) 都在编译期间生成了字面常量和符号引用，运行期间字面常量 “hello” 被存储在运行时常量池中。通过这种方法来将 String 对象跟引用绑定的话，JVM执行引擎会先在运行时常量池查找是否存在相同的字面常量，如果查找，则直接将引用指向已经存在的字面常量；否则在运行时常量池开辟一个空间来存储

2021-06-25 20:22:55 127

原创 Redis Key键基础操作，有这一篇就够了！！

Redis Key键基础操作基础命令：redis-server /etc/redis，/usr/local/bin/redis-cli1、查看当前库的所有keykeys *2、判断key是否存在exists key(name)3、查看key的类型type key4、删除指定的key的数据del key5、根据value选择非阻塞删除unlink key6、为key设置过期时间（设置10 秒钟）expire key 107、查看key还有多少时间过期（-1表示永不过期，

2021-06-11 21:41:33 143 1

原创 java面经，面向大厂

每日进步一点点__5.28SQL Select 语句完整的执行顺序：1、from 子句组装来自不同数据源的数据2、where 子句基于指定条件对记录进行筛选3、group by 子句将数据划分为多个分组4、使用聚集函数进行计算5、使用 having 子句筛选分组6、计算所有表达式7、使用 order by 对结果集进行排序8、select 集合输出hive之 sort by 与 order byorder by 会引发全局排序，也就是说会有一个所有的数据都通过一个 reduce

2021-05-28 17:48:33 126 1

原创 Flume Agent 内部原理详解

Flume Agent 内部原理详解一、过程1、接收数据2、处理事件3、将事件传给拦截器链4、将每个事件传递给 Cannel 选择器Channel Selectors 有两种类型 : Replicating Channel Selector (default) 和 Multiplexing Channel Selector 。eplicating 会将source 过来的 events 发往所有 channel ,而 Multiplexing 可以配置发往哪些 Channel。5、返回写

2021-05-10 18:13:08 471 2

原创 Flume 事务处理过程详解

Flume 事务过程详解主要事务处理过程：1、Web Server ：读数据，通过端口，本地文件读入数据。读取文件时有单个上传、批量上传以及断点续传模式。2、Source ：读数据，并将数据封装成事件。Source 将事务主动推入 Channel 中，而 Sink 是拉取事务。3、Put 事务流程doPut : 将批数据先写入临时缓冲区 putListdoCommit : 检查 channel 内存队列是否足够合并doRollBack : channel 内存队列空间不足，回滚数据4、

2021-05-10 17:12:53 523

原创 MongoDB更新查询、索引操作

MongoDB一、MongoDB 的文档操作在 MongoDB 中文档是指多个键及其关联的值有序地放置在一起就是文档，其实指的就是数据。MongoDB 中的文档数据结构和 JSON 基本一样，所有存储在集合中的数据都是 BSON 格式。BOSN是一种类似 JSON 的二进制形式的存储格式，是 Binary JSON 的简称。1、更新操作语法格式：db.集合名称.updata({查找条件},{"$set":{更新内容}},multi,upset)注：update默认只更新符合条件的第一条数

2021-04-11 15:09:13 1159

原创 MongoDB创建用户、数据库管理

MongoDB一、创建用户db.createUser({user:"aaa",pwd:"aaa",roles:[{role:"root",db:"admin"}]})注：末尾分号可写可不写user：用户，对应字符串pwd：密码，对应字符串roles：角色，权限，对应数组role：角色名db：用户所属数据库附：Mongo支持的角色--------read允许用户读取指定数据库readWrite允许用户读写指定数据库dbAdmin允许用户在指定数据库中

2021-04-09 14:41:50 626

原创 MongoDB简介、linux系统安装MongoDB

MongoDB一、MongoDB 简介什么是 MongoDB MongoDB 是一个基于分布式文件存储的数据库。由C++语言编写。在为WEB应用提供可扩展的高性能数据存储解决方案。 MongoDB 是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最想关系数据库的。它最大的特点是它支持的查询语言非常强大，其语法类似于面向对象的查询语言，几乎可以实现类似关系数据库单表查询的绝大部分功能，而且还支持对数据建立索引。 MongoDB 基于 Collection 数据

2021-04-08 20:17:18 248

原创 Hadoop集群--集群配置（一）

Hadoop集群第五章集群配置（一）一、集群部署规划由于NameNode、SencondaryNameNode、ResourceManager都非常消耗内存，所以它们不要安装在同一台机器上，至少需要三台虚拟机。hadoop102hadoop103hadoop104hdfsNameNode DataNodeDataNodeSecondaryNameNode DataNodeyarnNodeManagerResourceManager NodeManagerN

2021-03-28 21:23:58 228

原创 Hadoop集群--linux虚拟机Hadoop安装与配置、克隆虚拟机

Hadoop集群第四章 Hadoop安装与配置、克隆虚拟机一、Hadoop安装与配置1、将hadoop安装包通过Xftp传输到虚拟机的/software目录下2、进入/software目录下，解压安装文件cd /softwaretar -zxvf hadoop-3.1.3.tar.gz -C /software 3、查看是否解压成功4、配置Hadoop环境变量vim /etc/profile.d/my_env.sh#HADOOP_HOMEexport HADOOP_HOME=

2021-03-27 21:16:56 513

原创 Hadoop集群--linux虚拟机JDK安装与配置

Hadoop集群第三章 linux虚拟机 jdk 配置1、查看并卸载主机原有JDK1）查找并卸载 jdk 相关软件rpm -qa | grep -i java | xargs -n1 rqm -e --nodepsrpm -qa：查看安装的所有 rpm 软件包grep -i ：忽略大小写xargs -n1：表示每次只传递一个参数rpm -e --nodeps：强制卸载软件2）重新启动虚拟机reboot2、使用Xftp工具将 JDK 安装包传输到虚拟机 software 文件夹

2021-03-24 20:24:47 198 1

原创 Hadoop集群--linux虚拟机静态网络配置

Hadoop集群第二章 linux虚拟机静态网络配置1、执行命令，修改文件vim /etc/sysconfig/network-scripts/ifcfg-ens33将 BOOTPROTO 改为“static”添加 IPADDR、GATEWAY、DNS12、修改虚拟网络编辑器编辑–>虚拟网络编辑器VMnet8–>右下角更改设置更改子网掩码–>点击NAT模式–>NAT设置更改网关IP3、修改本机网络连接4、修改默认网关，配置DNS服务器5、在

2021-03-23 20:54:37 284

原创 Hadoop集群--详细虚拟机Linux安装配置

Hadoop集群第一章详细虚拟机Linux安装配置在这里插入图片描述软件需求：VMware Workstation、Linux镜像文件（QQ群可下载）一、硬件配置 1、打开虚拟机–>新建虚拟机–>自定义 2、默认 3、选择稍后安装操作系统 4、选择linux，版本号根据自己的CenOS选择 5、处理器内核总数不超过电脑CPU数量 6、选择虚拟机内存 7、网络类型 8、磁盘大小根据自己所需确定（指linux最大可占用空间，不是将

2021-03-19 19:53:54 286

原创 Hadoop企业开发场景案例，虚拟机服务器调优

Hadoop企业开发场景案例1 案例需求（1）需求：从1G数据中，统计每个单词出现次数。服务器3台，每台配置4G内存，4核CPU，4线程。（2）需求分析： 1G/128m = 8个MapTask；1个ReduceTask：1个mrAppMaster 平均每个节点运行10个/3台 ≈ 3个任务（4 3 3）2 HDFS参数调优（1）修改：hadoop-env.shexport HDFS_NAMENODE_OPTS = "-Dhadoop.security.lo

2021-03-16 21:39:46 230

小猿天地