王阿臭的学习笔记-CSDN博客

原创 Spark基础 - 名词汇总及集群模式概述

通过下面文档能够简单的理解Spark所涉及的相关组件是如何在Spark集群上运行。

2023-04-16 02:06:42 396

原创 Logstash: timestamp时间差8小时问题及解决

场景通过metricbeat收集服务器系统日志，metricbeat中的日志发送到kafka中Logstash中的时间为格林威治时间，因此通过logstash采集到的数据和我们的时间会有8小时的时差如果在后续代码中处理很有可能会处理遗漏掉，造成数据的时间错误。版本logstash 7.6.0解决方案如下input { beats { port =&g...

2020-03-13 03:31:53 4046 1

原创 mac/windows 下springboot配置idea 热部署

背景：在开发中，当我们修改代码之后，每次都要重新启动，很是浪费时间，在springboot中就有一种热部署方式，可以实现想要修改不需要每次都重新启动，保存即可生效用法：一、maven 添加二、添加编译时候的配置如下的配置在idea的springBoot项目中可以不需要添加，因为springBoot项目中已经默认有了此配置（亲测没有这个也可以）三、idea 配置自动编...

2020-01-11 23:34:49 360

原创 Java高阶:ArrayList源码分析

* ArrayList源码分析* jdk7和jdk8版本有一些不同首先，不管7版本还是8版本，ArrayList底层存储没有改变private transient Object[] elementData;在使用的时候，最简单的使用方式为：ArrayList list = new ArrayList();1.所以首先看ArrayList源码中的空参构造器 ...

2020-01-05 23:50:16 218

转载 Hadoop中SecondaryNameNode和HA（高可用）区别

在Hadoop2.0之前，NameNode只有一个，存在单点问题（虽然Hadoop1.0有SecondaryNameNode，CheckPointNode，BackupNode这些，但是单点问题依然存在），在hadoop2.0引入了HA机制。Hadoop2.0的HA机制官方介绍了有2种方式，一种是NFS（Network File System）方式，另外一种是QJM（Quorum Journal ...

2019-12-01 23:42:41 1101

转载 phoenix全局索引和本地索引测试

##1.测试表说明原hbase表是只有1个列族，算上rowkey一共6个字段的hbase表。一共37个regions，数据量一共3亿6千4百万hbase中表描述数据样例数据量##2.建立索引hbase的二级索引在phoenix中建立。建索引的语句如下,建好索引之后，有数据的变更索引数据和原始数据会实时的同步更新create index car_index_index1 o...

2019-11-30 02:48:05 607

转载为什么不建议在 HBase 中使用过多的列族

我们知道，一张 HBase 表包含一个或多个列族。HBase 的官方文档中关于 HBase 表的列族的个数有两处描述：A typical schema has between 1 and 3 column families per table. HBase tables should not be designed to mimic RDBMS tables. 以及 HBase currently...

2019-11-30 02:13:18 383

原创 JVM内存不要超过32G

事实上jvm在内存小于32G的时候会采用一个内存对象指针压缩技术。在java中，所有的对象都分配在堆上，然后有一个指针引用它。指向这些对象的指针大小通常是CPU的字长的大小，不是32bit就是64bit，这取决于你的处理器，指针指向了你的值的精确位置。对于32位系统，你的内存最大可使用4G。对于64系统可以使用更大的内存。但是64位的指针意味着更大的浪费，因为你的指针本身大了。浪费内存...

2019-11-26 01:51:19 668

原创 spark streaming闭包问题记录

foreachRDD是一个功能强大的原语，它允许将数据发送到外部系统。然而，理解如何正确和有效地使用这个原语是很重要的。要避免的一些常见错误如下。通常，将数据写入外部系统需要创建一个连接对象(例如，到远程服务器的TCP连接)并使用它将数据发送到远程系统。为此，开发人员可能会无意中尝试在Spark驱动程序中创建连接对象，然后尝试在Spark worker中使用它来保存RDDs中的记录。例如(在S...

2019-11-14 17:49:44 265

原创 spark的内存管理

spark-submit --master yarnExecutor 几个？core?memory?--executor-memory 1g--executor-cores 1--num-executors 2对spark内存管理要了解，否则提交作业很有可能出错http://spark.apache.org/docs/latest/tuning.html...

2019-11-04 16:29:16 317

转载 shell脚本条件判断if中-a到-z的意思

[ -a FILE ] 如果 FILE 存在则为真。[ -b FILE ] 如果 FILE 存在且是一个块特殊文件则为真。[ -c FILE ] 如果 FILE 存在且是一个字特殊文件则为真。[ -d FILE ] 如果 FILE 存在且是一个目录则为真。[ -e FILE ] 如果 FILE 存在则为真。[ -f FILE ] 如果 FILE 存在且是一...

2019-11-03 13:26:59 1414

原创 spark核心术语及架构

官方文档http://spark.apache.org/docs/latest/cluster-overview.htmlComponentsspark应用程序会作为独立的进程。它是和SparkContext有交互的在你的main方法中（这个就叫做dirver program）运行在集群之上时，SparkContext能够连接到集群管理器的不同模式上(standalone clu...

2019-10-28 17:00:36 224

原创 java提升:JVM运行时的区域以及拓展

jvm官方文档https://docs.oracle.com/javase/specs/jvms/se8/html/jvms-2.html运行时数据区数据区的描述https://docs.oracle.com/javase/specs/jvms/se8/html/jvms-2.html#jvms-2.5The Java Virtual Machine defines vari...

2019-10-27 01:59:13 243

原创 MapReduce基础：基于MapReduce实现WordCount以及相关内容的延伸

前言hadoop对Java数据类型进行了包装，hadoop的数据类型与Java那些数据类型对应如下表数据类型 hadoop数据类型 java数据类型布尔型 BooleanWritable boolean 整形 IntWritable int 浮点型 FloatWritable float 双精度型 DoubleWri...

2019-10-25 00:49:52 276

原创 Hadoop HDFS和Yarn架构设计

HDFS 和 yarn都是主从架构 master==>slave1.DN NM一般部署在同一个机器上原因是数据本地化2.大数据生态圈大部分组件都是主从架构，例如hdfs yarn有些是集群架构例如 zookeeper kafkahbase也是主从架构，master regionserver ，但是hbase比较特殊，这个要注意。HDFS HA架构官网架构图...

2019-10-24 16:27:10 607

原创 spark基础：RDD之间的依赖

例如以上转换过程：RDDA==>RDDB==>RDDCrdd的变换过程中分区不会有变化假如变化过程中，第二步6 8 的分区挂了，它会从源头重新计算，它能知道这个数据是从哪个分区过来的。既中间数据坏了，会从前面找Spark Lieage：一个RDD是如何从父RDD计算过来的在RDD源码中有：protected def getDependencies: S...

2019-10-24 12:06:14 500

转载 MySQL Binlog 介绍

Binlog 简介MySQL中一般有以下几种日志：日志类型写入日志的信息错误日志记录在启动，运行或停止mysqld时遇到的问题通用查询日志记录建立的客户端连接和执行的语句二进制日志记录更改数据的语句中继日志从复制主服务器接收的数据更改慢查询日志记录所有执行时间超过long_query_time秒的所有查询或不...

2019-10-21 00:06:58 211

原创 (随手记)Spark基础:杂七杂八

RDD操作transformation:转换它不会立即执行，spark所有操作都是懒执行的，所有的转换只有到action的时候才会运行action 动作Transformation算子http://spark.apache.org/docs/latest/rdd-programming-guide.html#transformationsAction算子http://sp...

2019-10-20 01:07:22 186

原创 Saprk基础：什么是RDD

RDD是：Resilient Distributed Datasets(RDDs) 的简写，中文含义弹性的分布式数据集Spark 源码中RDD.scala的源码注释对RDD进行了详细讲解（github：https://github.com/apache/spark/blob/v2.4.4/core/src/main/scala/org/apache/spark/rdd/RDD.scala）...

2019-10-19 11:40:43 260

原创使用spark源码脚本编译CDH版本spark

需求描述个人开发环境中大数据所有软件版本都是基于CDH5.15.1版本安装，但是CDH版本spark还停留在1.x版本，并且CDH版本的spark不支持sparkSQL的功能。我们可以使用Apache版本的spark版本进行重新编译满足 CDH版本的spark。版本spark:spark2.4.4maven:3.6.2java:jdk8cdh版本：5.15.1注...

2019-10-18 16:25:25 719 1

原创 (随手记)Flume 配置文件设置

Flume三个核心组件：source channel sink还有三个中间：Flume Channel Selectors、flume-sink-processors、Flume Interceptors第一个解决数据丢失第二个解决数据重复使用netcat source接收 44444端口数据，并将数据发送到44445端口a1.sources = r1a1.sinks ...

2019-10-17 14:25:23 330

原创 (随手记)flume基础

什么是flumeFlume is a distributed, reliable, and available system for efficientlycollecting, (收集)aggregating, ( 聚合)and moving large amounts of log data ( 大数据)from many different sources (多种数据源)...

2019-10-17 12:52:03 278

原创 Scala基础：Scala泛型

为什么使用泛型不适用泛型，可能有些变量在编译的过程中不能发现，在执行的时候才能发现。类型的约束，使用泛型之后，只有使用规则的数据才能使用。泛型代码示例object GenericApp { def main(args: Array[String]): Unit = { new WeChatMsg("wechat message") new DigitMsg...

2019-10-16 18:07:44 390

原创 Scala高阶：详解关于scala中的比较器

引导scala中的排序，底层使用的java中的排序所以在scala的排序之前，先看看java是如何使用接口进行自定义排序的1.使用comparator方法进行排序import java.util.ArrayList;import java.util.Collections;import java.util.Comparator;import java.util.List;...

2019-10-16 18:03:24 1014

原创 scala基础：scala 泛型中的符号

泛型中的符号符号作用 [T <: UpperBound] 上界 [T >: LowerBound] 下界 [T <% ViewBound] 视界 [T : ContextBound] 上下文界 [+T] 协变 [-T] 逆变关于各个泛型符号的详解1. 上下界约束符号 <:...

2019-10-16 17:17:13 663

原创 Scala高阶：隐式转换

前言目的（悄无声息、偷偷摸摸）增强已有的方法、函数、类隐式转换是把双刃剑，用的好，增加代码健壮性，用的不好，代码执行流程难以理解。隐式转换有三种隐式参数隐式类型转换原有个A类型，现在转换成B类型，B是从A中拿到的，B要对A的功能进行增强，增强过程“悄无声息”，写代码时候感知不到。隐式类其中隐式参数和隐式类型转换这两种为重点三种类型隐式转换的实现1.隐...

2019-10-16 13:05:52 207

原创 (随手记)scala基础： scala基础：List、Map、Set

随手记比较乱，看书看视频的时候顺带写的内容，后期会慢慢整理List 有序可重复的结构，包含不可变可变两种Set 是一个无序不可重复的数据结构Nil是什么不可变的空的集合scala> Nilres46: scala.collection.immutable.Nil.type = List()函数head 头tail 尾不允许使用lis...

2019-10-15 17:04:38 327

原创 (随手记)scala基础： scala基础数组的整理

随手记内容比较乱，看书看视频随手写的内容数组scala> val a = new Array[String](5)a: Array[String] = Array(null, null, null, null, null)scala> a.lengthres2: Int = 5scala> a(1) = "hello"scala> val b ...

2019-10-15 06:23:43 564

原创 (随手记)scala基础：基础整理

随手记内容比较乱，看书看视频随手写的内容值与变量值： val val 名称:数据类型 = 值变量：var var 名称:数据类型 = 值数据类型 String Int/Long/Float/Double Boolean asInstanceOf[T] 数据类型转换 isIn...

2019-10-15 00:35:15 170

原创 HBase基础：HBase写流程

架构图架构图摘自网络，后续例子使用个人集群进行讲解HBase写流程详解假如我们有三台机器，ruozedata001ruozedata002ruozedata003写流程：首先要写数据，要有客户端、zookeeper架构图中的：Put：table/RowKey/CF/Column: V，例如插入一条数据：数据表：bigdata:student ，RowKey：1...

2019-10-12 18:38:46 462

原创 HBase基础：HBase的数据模型

NameSpace命名空间，类似于关系型数据库的 DatabBase 概念，每个命名空间下有多个表。HBase 有两个自带的命名空间，分别是 hbase 和 default，hbase 中存放的是 HBase 内置的表， default 表是用户默认使用的命名空间。Region类似于关系型数据库的表概念。不同的是，HBase 定义表时只需要声明列族即可，不需要声明具体的列。这意味着，...

2019-10-12 17:40:00 484

原创 HBase基础：HBase物理存储结构

物理存储结构以逻辑存储结构中的部分数据为例： personal_info office_info RowKey name city phone telephone address row_key1 张三北京 131 010 北京市上面的数据，在hbase中的物理存储格式为：...

2019-10-12 17:27:05 489

原创 HBase基础：HBase逻辑结构

前言逻辑上，HBase的数据模型和关系型数据库类似，数据存储在一张表中，有行有列。注意，这个结构为逻辑结构，并非真正的存储格式。是用来理解hbase。通过Excel表格来理解HBase的数据模型 personal_info office_info RowKey name city phone telephone ...

2019-10-12 17:05:19 1181

原创 HBase基础：HBase详细架构

架构图hbase顶层存储依赖于HDFS存储，依赖于zookeeper进行管理协助 hbase自身有两个核心组件：HMaster以及HRegionServer。HMaster管理ddl操作以及namespace的操作。RegionServer管理dml的操作以及管理源数据。一个RegionServer维护多个HRegion，RegionServer通过HLog完成数据的预写操作，一个H...

2019-10-12 15:40:43 354

转载【HBase工具】查看解析HFile

查看HFile是HBase本身自带的一个很实用的工具使用也很简单：$ ${HBASE_HOME}/bin/hbase org.apache.hadoop.hbase.io.hfile.HFileusage: HFile [-a] [-b] [-e] [-f <arg>] [-k] [-m] [-p] [-r <arg>] [-v]-a,--checkfamily...

2019-10-12 04:09:41 547

原创 hbase shell基本命令

启动hbase shell方式一：进入到hbase的目录后，执行：./bin/hbase shell方式二：在网上看到很多提到hbase shell无法执行的问题，个人觉得基本就是没有配置hbase环境变量导致的。将hbase配置到环境变量中，本人使用hdfs用户安装到app目录下，hbase版本：hbase-1.2.0-cdh5.15.1。具体路径根据跟人情况修改...

2019-10-10 16:51:37 352

原创 centos7安装Docker，并配置docker国内镜像源

CentOS Docker 安装Docker支持以下的CentOS版本：CentOS 7 (64-bit) CentOS 6.5 (64-bit)或更高的版本前提条件目前，CentOS 仅发行版本中的内核支持 Docker。Docker 运行在 CentOS 7 上，要求系统为64位、系统内核版本为 3.10 以上。Docker 运行在CentOS-6.5或更高的版本...

2019-10-08 19:10:15 1529 1

原创 redis的基本概念和命令操作

redis安装下载地址：https://redis.io/download，本人下载版本：redis-5.0.5将软件解压到安装目录，本人mac安装目录为：~/software。解压完成后，redis需要通过make进行编译，并使用make install进行安装tar -zxvf redis-5.0.5.tar.gz -C ~/softwarecd ~/software/...

2019-10-01 04:29:54 427

原创 zookeeper系列二：zookeeper的api编程

pom依赖根据自己的zookeeper版本填写 version，本地使用的zookeeper版本为3.4.6<dependency> <groupId>org.apache.zookeeper</groupId> <artifactId>zookeeper</artifactId> <version...

2019-09-30 19:34:55 205

原创 zookeeper系列一：通过zookeeper 客户端的命令zkCli.sh，熟悉zookeeper基本原理

什么是ZookeeperZooKeeper is a centralized service for maintaining configuration information, naming, providing distributed synchronization, and providing group services.ZooKeeper是一个集中的服务，用于维护配置信息、命...

2019-09-29 18:32:05 926

空空如也

空空如也