AaronLwx-CSDN博客

原创基于Spring Boot搭建SOA架构级别的Web项目

Spring Boot版本选择为2.1.8先在本地创建一个空的项目faces，然后导进Idea创建faces-parent项目在pom文件添加如下代码 <properties> <project.build.sourceEncoding>UTF-8</project.build.sourc...

2020-02-12 18:27:10 2510 1

原创 Spring Boot整合MyBatis和Druid

快速创建Spring Boot应用暂时先添加这么多依赖项目生成之后打开pom文件看看Spring Boot导入不进来，百度了一下，说要把*.lastUpdated文件删除。但我并没那么做，先去我的仓库看一看发现Spring Boot的版本是2.1.8.RELEASE，估计是我之前已经安装过，所以我在新项目的文件把Spring Boot的版本改为2.1.8.R...

2020-02-11 20:57:22 443

原创各种日志框架使用总结

目前市面上有如下日志框架：JUL、JCL、Jboss-logging、logback、log4j、log4j2、SLF4J等等日志的抽象层日志实现 JCL(Jakarta Commons Logging) SLF4J(Simple Logging Facade for Java) jboss-logging log4j ...

2020-01-31 23:24:30 414

原创使用Canal同步MySQL到ES

[hadoop@hadoop003 software]$ tar -xzvf elasticsearch-7.4.0-linux-x86_64.tar.gz -C ../app/[hadoop@hadoop003 software]$ ln -s elasticsearch-7.4.0 elasticsearch[hadoop@hadoop003 software]$ sudo v...

2020-01-31 10:40:36 3874 2

原创 Canal部署

安装MySQL[hadoop@hadoop003 canal-admin]$ sudo yum -y localinstall https://dev.mysql.com/get/mysql80-community-release-el7-3.noarch.rpm[hadoop@hadoop003 canal-admin]$ sudo yum -y install mysql-commu...

2020-01-30 16:50:23 760

原创 Wormhole部署&使用

[hadoop@hadoop003 software]$ tar -zxf wormhole-0.6.2.tar.gz -C ../app/[hadoop@hadoop003 app]$ ln -s wormhole-0.6.2 wormhole[hadoop@hadoop003 app]$ sudo vi /etc/profileexport WORMHOLE_HOME=/h...

2020-01-29 17:37:09 3362 1

原创 Kylin初探

[root@hadoop001 ~]# $KYLIN_HOME/bin/sample.sh一开始会报错，ERROR : FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:Got exception: org.apache....

2020-01-25 22:23:46 549

原创搭建DophinScheduler

各服务所在节点部署如下服务 node01 node02 node03 master √ √ worker/logServer √ √ alertServe...

2020-01-24 23:18:45 1327

原创搭建Kylin集群

[hadoop@hadoop001 software]$ tar -zxvf apache-kylin-2.6.4-bin.tar.gz -C ../app/[hadoop@hadoop001 app]$ ln -s apache-kylin-2.6.4-bin kylin准备Spark包首先，在Ambari中安装Spark。[hadoop@hadoop001 app...

2020-01-24 13:10:18 280

原创深入使用DBus

中间的MySQL(hadoop002)即是主又是从，一定要及得加上log_slave_updates配置，否则在 MySQL主节点(hadoop001)上插入数据，MySQL从虽然可以同步数据，但是它不会级联生成binlog日志， canal就采集不到数据了。在hadoop001节点上执行如下命令[hadoop@hadoop001 ~]$ sudo vim /etc/my.cnfse...

2020-01-23 20:37:05 571

原创 DBus集群部署

部署InfluxDB[root@hadoop003 software]# wget https://dl.influxdata.com/influxdb/releases/influxdb-1.1.0.x86_64.rpm[root@hadoop003 software]# yum -y localinstall influxdb-1.1.0.x86_64.rpm[root@...

2020-01-22 01:25:07 1031

原创搭建Ambari集群

[root@hadoop001 ~]# visudo[root@hadoop001 ssh]# useradd hadoopSSH免密[hadoop@hadoop001 ~]$ ssh-keygen[hadoop@hadoop001 ~]$ cd .ssh[hadoop@hadoop001 .ssh]$ pwd/home/hadoop/.ssh[h...

2020-01-21 21:48:28 274

原创 Ambari部署

生成ssh key[root@hadoop001 .ssh]# ssh-keygen[root@hadoop001 .ssh]# cat id_rsa.pub >> authorized_keys[root@hadoop001 .ssh]# chmod 700 ~/.ssh[root@hadoop001 .ssh]# chmod 600 ~/.ssh/author...

2019-12-01 22:43:24 1442

原创 Hive 包版本引发的血案

刚才打开自己在阿里云的一台服务器，并准备在上面测试Hive的一些功能，原以为很顺利，没想到一上来一个show databases;就报错了，如图奇怪了，以前是没有问题的啊，为啥会出现这个错误呢？定睛一看，十有八九是jar包冲突了，问题就是出在guava这个包里头，于是跑去hive下的lib上看一看会不会guava的版本太高或者太低了，先试一试。先后把guava-13.0...

2019-08-22 15:04:15 1127

上文说到为什么使用Flink实时消费阿里云日志服务SLS的数据，并把阿里云上Flink消费SLS的代码粘贴到本地，做了相关修改之后成功把整个流程跑通了。但仅仅这样是不够的，从控制台上面输出的数据来看是个比较难看的字符串，可以说没多大用处。因此本文主要是继续使用Flink来对从日志服务SLS过来的数据做一系列的清洗，然后再计算几个工作中的指标。相关ETL代码如下，就是把需要使用到的各个字段提取出...

2019-08-19 12:26:42 1725 1

原创 Flink源码阅读之生成StreamGraph

首先，从一个流式计算的例子WordCount来入手。我们知道这个程序只有env调用了execute方法才会正式的执行，那么execute方法里面一开始会先创建StreamGraph，然后再生成JobGraph，接着生成ExecutionGraph，最后生成物理执行计划。下面先介绍StreamGraph是如何生成的。点击进入execute通过调用这个...

2019-08-10 17:12:38 216

原创 Spark官网翻译--Quick Start

http://spark.apache.org/docs/latest/quick-start.htmlQuick StartSecurity Interactive Analysis with the Spark Shell Basics More on Dataset Operations Caching Self-Contained Applications Wh...

2019-08-09 11:20:27 373

原创 Flink实时消费阿里云日志服务SLS的数据

之前调研打算使用Spark Streaming来消费阿里云日志服务SLS的日志，具体的架构实现见之前的博客，大概流程就是使用Flume去收集阿里云日志服务SLS的数据，把采集到的数据sink到Kafka，最后Spark Streaming来消费。咋一看上面整个链条太长，其实也是可以直接使用Spark Streaming来消费阿里云日志服务SLS的数据，但个人感觉自从阿里云收购了Flink之后，...

2019-08-08 14:29:19 4289

原创 Offline离线项目效果演示

我们先从下面最简单的Demo入手，一步一步迭代 // val time = sc.getConf.get("spark.time", "")val time = "2019-06-08 10:14:09"val parsedTime = DateUtils.parseToMinute(time)val day = DateUtils.getDay(parsedTime) // "20...

2019-08-07 17:47:23 375

原创 Spark Streaming使用MySQL存储offset保证Exactly Once语义

1.准备1.1 本次测试的运行环境如下<spark.version>2.3.0</spark.version> <kafka.version>0.10.0-kafka-2.1.1</kafka.version> <scala.version>2.11.8</scala.version> <hadoop.ve...

2019-08-02 19:30:51 340

原创生产预警平台-问题汇总

问题汇总问题1Caused by: java.lang.AssertionError: assertion failed: Failed to get records for spark-executor-abcd1 test1 8 1 after polling for 512at scala.Predef$.assert(Predef.scala:170)at org.apach...

2019-08-02 19:21:05 2005

原创 Kafka Manager监控工具的搭建（sbt安装与编译）

下载安装sbthttps://www.scala-sbt.org/1.x/docs/Installing-sbt-on-Linux.html[hadoop@hadoop004 rpm_bao]$ curl https://bintray.com/sbt/rpm/rpm | sudo tee /etc/yum.repos.d/bintray-sbt-r[root@hadoop004 r...

2019-08-02 14:50:12 494

原创 JVM系列（三）

JVM内存模型对于JVM来说，在哪个区就采取相应的垃圾回收机制对于s0和s1，在同一个时间点，只有一个是启动的，另外一个是空的Student stu = new Student();对于上面代码，new出来的对象stu，首先会分配在eden区，如果eden区满了就会触发第一次GC，这次GC会把活的对象拷贝到s0如果eden区第二次满了，那么会再次触发GC，此时，ede...

2019-07-28 22:14:35 156

原创 JVM系列（二）

Java代码执行流程计算机只认识.class文件ClassLoader把.class文件加载进来之后就会在运行时的数据区里先创建一个Java文件，vim JVMDemo.java内容如下public class JVMDemo { public static void main(String[] args) throws InterruptedExcep...

2019-07-28 12:06:37 137

原创 JVM系列（一）

JVM模式client模式，默认32位的Windows系统都采用这种模式 server模式，只要是32位的其他系统，高于2G，2Core的都采取这种模式，现在基本都是server模式了类型解释型int，不会把Java代码转变为本地代码编译型compile，会编译成本地代码，所以第一次编译会慢一点 mixed mode 就是让JVM来决定我们的代码编译成哪种类型-Xc...

2019-07-27 17:30:59 170

原创在Zeppelin上运行Spark程序

前言不得不说，Spark在Zeppelin上的使用还是比较方便的，比你在终端启动一个spark-shell或者spark-sql强太多了。闲话少说，我们一起来看一看吧！读取本地JSON文件由于Zeppelin默认支持Spark，所以可以不用在开头加上%spark关键词接着我们创建一张临时表，使用SQL来查询妥妥的！注意SQL语句的结尾不要加分号，不然会报错！读取HD...

2019-07-25 15:36:45 1856

原创阿里云日志服务 + Flume + Kafka + Spark Streaming--问题排查及解决（其中包含打小胖包的步骤）

项目的最后一步是把IDEA中的程序打包上传到服务器上，并在服务器上面运行，在运行作业的过程中，出现了不少的问题，罗列如下我的jar包路径写错了spark-submit \--master yarn \--name "online_number" \--num-executors 1 \--executor-cores 1 \--executor-memory 2G \--...

2019-07-25 12:12:47 301

原创 MAC下IDEA切换JDK版本

如下图，今天在导入源代码的时候报错了莫慌，Google了一番，解决方案如下搞定！！

2019-07-23 12:27:01 2547

原创 Flink的源码编译兼容Hadoop2.6.0-CDH-5.7.0

因为我本地的Hadoop版本为hadoop-2.6.0-cdh5.7.0，所以根据这个Hadoop版本来编译Flink编译Flink源码前置条件Maven 3.3.9 or newerJava 8+Scala好，检查过后，没啥问题了。Flink的源码托管在Github上面，先去那里看一看https://github.com/apache/flink今天我们要...

2019-07-21 16:15:06 956

原创 Zeppelin安装及集成MySQL的使用

注意事项企业来讲，肯定选择 Build from source，因为我们肯定要改代码然后自己编译如果要权限控制，修改shiro.ini，Zeppelin默认使用shiro来控制权限，默认情况是匿名用户anonymous，可以在shiro.ini配置文件中进行用户名，密码，权限的配置 zepplin不可能是单独使用的，在生产上是嵌进数据平台的，数据平台登录有一个权限，所以肯定有数据平台权限...

2019-07-16 18:17:19 531 1

原创阿里云日志服务 + Flume + Kafka + Spark Streaming--part four （未完成）

这篇博客，我们一起来实现一个功能，实时舆论监控。今天学到了一句话，Talk is cheap, show me your code，分享给大家好，我们开始！背景公司现有的舆论监控是这样的，运营人员每隔一段时间会去查看阿里云日志服务的日志，但由于运营人员不熟这一块，肯定是不能让他们直接上阿里云去查看的，所以我们的开发在GM的菜单栏上加上了这个功能，当运营人员要查看玩家聊天日志的时候，...

2019-07-10 18:54:14 171

原创阿里云日志服务 + Flume + Kafka + Spark Streaming--part three

重点终于来了！！！我们不用着急，一步一步来迭代前两篇文章分别介绍了Flume把阿里云日志服务的日志采集过来，然后流到Kafka，也就是说，目前为止，我们已经成功打通了阿里云日志服务 --> Flume --> Kafka这条链路。我们接着开干。首先我们先看一下Spark Streaming的代码package com.ruozedata.spark.slsim...

2019-07-09 14:56:51 654

原创 Grafana整合InfluxDB

首先我们还是跟着Grafana官网走来到Grafana server界面，点击Add data source，如下图点击InfluxDB接着返回首页，点击New dashboard点击Add Query填写了一些查询条件ok，然后再返回首页好，至此，Grafana整合InfluxDB完毕！！！...

2019-07-08 16:36:16 929

原创 InfluxDB安装和使用

今天来点简单的InfluxDB安装首先老规矩，官网[root@hadoop004 software]# cat <<EOF | sudo tee /etc/yum.repos.d/influxdb.repo> [influxdb]> name = InfluxDB Repository - RHEL \$releasever> ba...

2019-07-08 15:28:23 3573

原创 Grafana安装和使用

今天来点简单的Grafana安装首先老规矩，官网开始安装[hadoop@hadoop004 software]$ wget https://dl.grafana.com/oss/release/grafana-6.2.5-1.x86_64.rpm[root@hadoop004 software]# yum localinstall grafana-6.2.5-1....

2019-07-08 11:23:48 2507

原创阿里云日志服务 + Flume + Kafka + Spark Streaming--part two

上次成功的通过Flume收集到了阿里云日志服务的日志，今天就把从Flume从阿里云日志服务采集过来的日志sink到Kafka启动Kafka[hadoop@hadoop004 kafka_2.11-0.10.0.0]$ nohup bin/kafka-server-start.sh config/server.properties >/dev/null 2>&1 &a...

2019-07-05 16:39:27 583

原创阿里云日志服务 + Flume + Kafka + Spark Streaming--part one

由于历史的原因，公司所有的日志都通过阿里云日志服务的logtail进行收集并存储到日志服务首先查看阿里云日志服务SLS的官方文档https://help.aliyun.com/document_detail/123446.html#title-4jc-gkl-7nq上面的文档有Flume关于sls配置文件的配置阿里云日志服务sls的Flume插件安装https://github...

2019-07-05 11:25:17 1094 5

原创 Airflow + MySQL

进入MySQL数据库mysql> create database airflow;mysql> create user 'airflow'@'%' identified by '';Query OK, 0 rows affected (0.00 sec)mysql> create user 'airflow'@'localhost' identified by ...

2019-07-04 20:44:05 3446

原创 Airflow初探

简介Airflow官网Airflow今年年初成为了Apache的顶级项目，它是由Python编写的一个任务调度框架。安装看官网[hadoop@hadoop004 airflow]$ export AIRFLOW_HOME=~/airflow[hadoop@hadoop004 airflow]$ sudo pip3 install apache-airflow...

2019-07-04 10:03:31 566

原创单手解Spark之Executor计算执行逻辑

Driver 中的 CoarseGrainedSchedulerBackend 给 CoarseGrainedExecutorBackend 发送 LaunchTask 消息反序列化TaskDescription点击进入decode方法Executor会通过 launchTask执行 Task。点击进入launchTask方法Executor的launchTask...

2019-07-02 18:00:43 322

空空如也

空空如也