自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 Hbase运维工具——Hbck2工具使用

强大的Hbase运维工具,Hbck2工具使用

2023-08-19 16:50:03 734

原创 Hbase运维rit之unknow server

重启hmaster,出现region无法自动分配,assign region也无法重新分配。查看hbck report 发现有unknown servers的问题。原因:regionserver的name发生变化。删除掉当前未知的regionsever,恢复正常。hbck report 页面。使用的工具为hbck2。

2023-08-14 20:44:58 300

原创 Trino编译权限不足问题

trino编译权限不足问题

2023-08-06 16:26:26 132

原创 CDH修改ElasticSearch配置文件不生效问题

CDH修改ElasticSearch配置文件不生效问题1.遇到的问题cdh集群中elasticsearch需要备份索引,但是没有加快照,需要修改elasticsearch.yml文件 "reason" : "[my_backup] location [/esbak] doesn't match any of the locations specified by path.repo because this setting is empty"2.修改配置文件由于es是集成到cdh集群中,直接修改配

2021-09-30 11:22:20 1240

原创 Clickhouse安装与使用

公司里面也上Click house(简称CK)了,这是一款你没玩过(用过)的全新传奇(数据库);今天自己在自己本地搞了一套;简单记录一下;很多信息从官网可以找到,https://clickhouse.tech/自我介绍ClickHouse is a fast open-source OLAP database management systemClickHouse是一个快速的开源OLAP数据库管理系统,不知道和kylin相比又如何?It is column-oriented and allows t

2020-08-25 22:51:47 254

原创 spark踩到的坑,saveAsTextFile

data.saveAsTextFile("/user/data/text/xxx.txt")默认保存在HDFS上面,由于保存的是txt的文件,想要从HDFS上面下载又需要很长时间要想保存在本地需要加上filedata.saveAsTextFile(“file:///user/data/text/xxx.txt”)才是到本地;...

2020-08-17 15:06:37 687 1

原创 Scala中大括号和小括号的区别

最近遇到一些关于map()和map{}的问题,因此看了看网上的一些博客,自己做个小总结。像如下// map方法这样写不能编译通过scala> List(2).map( case 2 => “OK” )// 换做花括号就可以了scala> List(2).map{ case 2 => “OK” }1)scala中函数的小括号,可以用花括号来表示,即foo{xx} 与 foo(xx)是一回事儿。2)对于只有一个参数的方法,其小括号是可以省略的,map(lambda)可写为

2020-08-01 13:33:40 2004 1

原创 Spark RDD 五个特性

Spark 的RDD的五个特性源码中的解释A list of partitionsA function for computing each splitA list of dependencies on other RDDsOptionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)Optionally, a list of prefer

2020-07-29 22:07:46 261

原创 Scala到底什么是隐式转换??有什么作用?有哪些应用场景?

对隐式转换的理解一直不太深刻,今天面试又聊到了,备受打击呀!!1.定义隐式转换当Scala的编译器进行类型的匹配时,如果找不到合适的候选,那么隐式转换就会通过另一种途径告诉编译器如何将当前的类型转换成预期类型。其中最核心的就是自己定义隐式转换方法(implicit conversion function),Scala会根据隐式转换方法的签名,在程序中使用到隐式转换方法接收的参数类型定义的对象时,会自动将其传入隐式转换方法,转换为另外一种类型的对象并返回。所有的隐式值和隐式方法都必须放到object中

2020-07-19 22:36:37 614

原创 深入了解Spark 内存管理

Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者有一定的 Spark 和 Java 基础,了解 RDD、Shuffle、JVM 等相关概念。在执行 Spark 的应用程序时,Spark 集群会启动 Driver 和 Exec

2020-07-05 20:27:39 124

原创 Hadoop优化及小文件处理

Hadoop优化0)HDFS小文件影响(1)影响NameNode的寿命,因为文件元数据存储在NameNode的内存中(2)影响计算引擎的任务数量,比如每个小的文件都会生成一个Map任务1)数据输入小文件处理:(1)合并小文件:对小文件进行归档(Har)、自定义Inputformat将小文件存储成SequenceFile文件。(2)采用ConbinFileInputFormat来作为输入,解决输入端大量小文件场景。(3)对于大量小文件Job,可以开启JVM重用。2)Map阶段(1)增大环形缓

2020-07-05 15:28:20 183

转载 Kafka 如何保证消息的高并发写入和读取

kafka消息中间件如何实现每秒几十万的高并发写入?1、页缓存技术 + 磁盘顺序写首先Kafka每次接收到数据都会往磁盘上去写,如下图所示。那么在这里我们不禁有一个疑问了,如果把数据基于磁盘来存储,频繁的往磁盘文件里写数据,这个性能会不会很差?大家肯定都觉得磁盘写性能是极差的。没错,要是真的跟上面那个图那么简单的话,那确实这个性能是比较差的。但是实际上Kafka在这里有极为优秀和出色的设计,就是为了保证数据写入性能,首先Kafka是基于操作系统的页缓存来实现文件写入的。操作系统本身有一层缓存,

2020-07-05 10:58:27 1075

原创 大数据面试真题

记一次大数据面试真题1.mapduce的执行流程?1)mapreduce 客户端向RM提交任务2)RM计算任务开启节点,开启AppMaster3)AppMaster向RM注册,申请资源4)一旦 ApplicationMaster 申请到资源后,便与对应的 NodeManager 通信,要求 它启动任务。5)Appmaster 分发具体task给每个node2.shuffle阶段3.Hive数据倾斜?要注意那些问题?任务进度长时间维持在 99%或者 100%的附近,查看任务监控页面,发现只

2020-07-03 21:34:40 211

转载 SQL 中in和exists的区别

SQL 中in和exists的区别1、in和existsin是把外表和内表作hash连接,而exists是对外表作loop循环,每次loop循环再对内表进行查询,一直以来认为exists比in效率高的说法是不准确的。如果查询的两个表大小相当,那么用in和exists差别不大;如果两个表中一个较小一个较大,则子查询表大的用exists,子查询表小的用in;例如:表A(小表),表B(大表)select * from A where cc in(select cc from B)  -->效率低,用

2020-06-21 16:21:44 964

原创 SQL中创建相同表时as 和like的区别

标题SQL中创建相同表时as 和like的区别1.MySQL的复制相同表结构方法:1)create table table_name as select * from table1 where 1=2 (或者limit 0);2) create table table_name like table1_name;二者的用途:as :用来创建相同表结构并复制源表数据,可以选择字段like:用来创建完整表结构和全部索引。但是没有数据二者的区别:as :创建出来的table_name缺少tabl

2020-06-21 15:00:24 1689

原创 剑指offer -- 用两个栈实现队列

题目描述用两个栈来实现一个队列,完成队列的Push和Pop操作。 队列中的元素为int类型。public class Solution { Stack<Integer> stack1 = new Stack<Integer>(); Stack<Integer> stack2 = new Stack<Integer>(); ...

2020-03-25 20:46:57 67

原创 剑指offer -- 重建二叉树

题目描述输入某二叉树的前序遍历和中序遍历的结果,请重建出该二叉树。假设输入的前序遍历和中序遍历的结果中都不含重复的数字。例如输入前序遍历序列{1,2,4,7,3,5,6,8}和中序遍历序列{4,7,2,1,5,3,8,6},则重建二叉树并返回。思路:没有太好的想法,根据剑指offer中的c++代码的思路改为Java,需要用到递归;先找到前序遍历的每一位为根节点,然后找到中序遍历中的相同数值,分...

2020-03-23 19:57:44 66

原创 剑指offer--从尾到头打印链表

题目描述输入一个链表,按链表从尾到头的顺序返回一个ArrayList。解法一、利用栈,先进后出/*** public class ListNode {* int val;* ListNode next = null;** ListNode(int val) {* this.val = val;* ...

2020-03-22 20:52:06 56

原创 linux查找文件

Linux查找文件一 、find命令find目录在文件目录结构下搜索文件,并执行指定的操作;命令选项:-name 文件名:按文件名称查找文件-perm 权限 : 按照文件权限来查找文件。-user UID或用户名 :按照文件属主来查找文件。-group GID或组名 :按照文件所属的组来查找文件。-type 类型 :查找某一类型的文件,诸如:b - 块设备文件。d -...

2020-02-24 15:22:13 202

原创 Java多线程

Java多线程首先我们先理解一下几个概念程序,进程,线程,并发,并行程序:计算机里面的代码,是静止不动的,例如我们电脑里所安装的一些程序。进程:进程是程序的执行过程,是动态的,当程序运行时就在计算机里面创建了一个进程。进程需要使用计算机资源,cpu和内存。例如我们打开某个计算机程序,会在任务管理器中显示某个进程。线程:线程是轻量级进程,是执行任务的一部分。一个进程可以有多个线程。例如我们...

2020-02-08 21:35:08 78

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除