自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

AaronLwx的博客

大数据

  • 博客(79)
  • 收藏
  • 关注

原创 基于Spring Boot搭建SOA架构级别的Web项目

Spring Boot版本选择为2.1.8先在本地创建一个空的项目faces,然后导进Idea创建faces-parent项目在pom文件添加如下代码 <properties> <project.build.sourceEncoding>UTF-8</project.build.sourc...

2020-02-12 18:27:10 2283

原创 Spring Boot整合MyBatis和Druid

快速创建Spring Boot应用暂时先添加这么多依赖项目生成之后打开pom文件看看Spring Boot导入不进来,百度了一下,说要把*.lastUpdated文件删除。但我并没那么做,先去我的仓库看一看发现Spring Boot的版本是2.1.8.RELEASE,估计是我之前已经安装过,所以我在新项目的文件把Spring Boot的版本改为2.1.8.R...

2020-02-11 20:57:22 363

原创 各种日志框架使用总结

目前市面上有如下日志框架:JUL、JCL、Jboss-logging、logback、log4j、log4j2、SLF4J等等 日志的抽象层 日志实现 JCL(Jakarta Commons Logging) SLF4J(Simple Logging Facade for Java) jboss-logging log4j ...

2020-01-31 23:24:30 350

原创 使用Canal同步MySQL到ES

[hadoop@hadoop003 software]$ tar -xzvf elasticsearch-7.4.0-linux-x86_64.tar.gz -C ../app/[hadoop@hadoop003 software]$ ln -s elasticsearch-7.4.0 elasticsearch[hadoop@hadoop003 software]$ sudo v...

2020-01-31 10:40:36 3736 2

原创 Canal部署

安装MySQL[hadoop@hadoop003 canal-admin]$ sudo yum -y localinstall https://dev.mysql.com/get/mysql80-community-release-el7-3.noarch.rpm[hadoop@hadoop003 canal-admin]$ sudo yum -y install mysql-commu...

2020-01-30 16:50:23 689

原创 Wormhole部署&使用

[hadoop@hadoop003 software]$ tar -zxf wormhole-0.6.2.tar.gz -C ../app/[hadoop@hadoop003 app]$ ln -s wormhole-0.6.2 wormhole[hadoop@hadoop003 app]$ sudo vi /etc/profileexport WORMHOLE_HOME=/h...

2020-01-29 17:37:09 3193 1

原创 Kylin初探

[root@hadoop001 ~]# $KYLIN_HOME/bin/sample.sh一开始会报错,ERROR : FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:Got exception: org.apache....

2020-01-25 22:23:46 492

原创 搭建DophinScheduler

各服务所在节点部署如下 服务 node01 node02 node03 master √ √ worker/logServer √ √ alertServe...

2020-01-24 23:18:45 1247

原创 搭建Kylin集群

[hadoop@hadoop001 software]$ tar -zxvf apache-kylin-2.6.4-bin.tar.gz -C ../app/[hadoop@hadoop001 app]$ ln -s apache-kylin-2.6.4-bin kylin准备Spark包首先,在Ambari中安装Spark。[hadoop@hadoop001 app...

2020-01-24 13:10:18 230

原创 深入使用DBus

中间的MySQL(hadoop002)即是主又是从,一定要及得加上log_slave_updates配置,否则在 MySQL主节点(hadoop001)上插入数据,MySQL从虽然可以同步数据,但是它不会级联生成binlog日志, canal就采集不到数据了。在hadoop001节点上执行如下命令[hadoop@hadoop001 ~]$ sudo vim /etc/my.cnfse...

2020-01-23 20:37:05 515

原创 DBus集群部署

部署InfluxDB[root@hadoop003 software]# wget https://dl.influxdata.com/influxdb/releases/influxdb-1.1.0.x86_64.rpm[root@hadoop003 software]# yum -y localinstall influxdb-1.1.0.x86_64.rpm[root@...

2020-01-22 01:25:07 966

原创 搭建Ambari集群

[root@hadoop001 ~]# visudo[root@hadoop001 ssh]# useradd hadoopSSH免密[hadoop@hadoop001 ~]$ ssh-keygen[hadoop@hadoop001 ~]$ cd .ssh[hadoop@hadoop001 .ssh]$ pwd/home/hadoop/.ssh[h...

2020-01-21 21:48:28 221

原创 Ambari部署

生成ssh key[root@hadoop001 .ssh]# ssh-keygen[root@hadoop001 .ssh]# cat id_rsa.pub >> authorized_keys[root@hadoop001 .ssh]# chmod 700 ~/.ssh[root@hadoop001 .ssh]# chmod 600 ~/.ssh/author...

2019-12-01 22:43:24 1086

原创 Hive 包版本引发的血案

刚才打开自己在阿里云的一台服务器,并准备在上面测试Hive的一些功能,原以为很顺利,没想到一上来一个show databases;就报错了,如图奇怪了,以前是没有问题的啊,为啥会出现这个错误呢?定睛一看,十有八九是jar包冲突了,问题就是出在guava这个包里头,于是跑去hive下的lib上看一看会不会guava的版本太高或者太低了,先试一试。先后把guava-13.0...

2019-08-22 15:04:15 1070

原创 Flink清洗日志服务SLS的数据并求ACU&PCU

上文说到为什么使用Flink实时消费阿里云日志服务SLS的数据,并把阿里云上Flink消费SLS的代码粘贴到本地,做了相关修改之后成功把整个流程跑通了。但仅仅这样是不够的,从控制台上面输出的数据来看是个比较难看的字符串,可以说没多大用处。因此本文主要是继续使用Flink来对从日志服务SLS过来的数据做一系列的清洗,然后再计算几个工作中的指标。相关ETL代码如下,就是把需要使用到的各个字段提取出...

2019-08-19 12:26:42 1590 1

原创 Flink源码阅读之生成StreamGraph

首先,从一个流式计算的例子WordCount来入手。我们知道这个程序只有env调用了execute方法才会正式的执行,那么execute方法里面一开始会先创建StreamGraph,然后再生成JobGraph,接着生成ExecutionGraph,最后生成物理执行计划。下面先介绍StreamGraph是如何生成的。点击进入execute通过调用这个...

2019-08-10 17:12:38 163

原创 Spark官网翻译--Quick Start

http://spark.apache.org/docs/latest/quick-start.htmlQuick StartSecurity Interactive Analysis with the Spark Shell Basics More on Dataset Operations Caching Self-Contained Applications Wh...

2019-08-09 11:20:27 281

原创 Flink实时消费阿里云日志服务SLS的数据

之前调研打算使用Spark Streaming来消费阿里云日志服务SLS的日志,具体的架构实现见之前的博客,大概流程就是使用Flume去收集阿里云日志服务SLS的数据,把采集到的数据sink到Kafka,最后Spark Streaming来消费。咋一看上面整个链条太长,其实也是可以直接使用Spark Streaming来消费阿里云日志服务SLS的数据,但个人感觉自从阿里云收购了Flink之后,...

2019-08-08 14:29:19 3959

原创 Offline离线项目效果演示

我们先从下面最简单的Demo入手,一步一步迭代 // val time = sc.getConf.get("spark.time", "")val time = "2019-06-08 10:14:09"val parsedTime = DateUtils.parseToMinute(time)val day = DateUtils.getDay(parsedTime) // "20...

2019-08-07 17:47:23 325

原创 Spark Streaming使用MySQL存储offset保证Exactly Once语义

1.准备1.1 本次测试的运行环境如下<spark.version>2.3.0</spark.version> <kafka.version>0.10.0-kafka-2.1.1</kafka.version> <scala.version>2.11.8</scala.version> <hadoop.ve...

2019-08-02 19:30:51 288

原创 生产预警平台-问题汇总

问题汇总问题1Caused by: java.lang.AssertionError: assertion failed: Failed to get records for spark-executor-abcd1 test1 8 1 after polling for 512at scala.Predef$.assert(Predef.scala:170)at org.apach...

2019-08-02 19:21:05 1882

原创 Kafka Manager监控工具的搭建(sbt安装与编译)

下载安装sbthttps://www.scala-sbt.org/1.x/docs/Installing-sbt-on-Linux.html[hadoop@hadoop004 rpm_bao]$ curl https://bintray.com/sbt/rpm/rpm | sudo tee /etc/yum.repos.d/bintray-sbt-r[root@hadoop004 r...

2019-08-02 14:50:12 454

原创 JVM系列(三)

JVM内存模型对于JVM来说,在哪个区就采取相应的垃圾回收机制对于s0和s1,在同一个时间点,只有一个是启动的,另外一个是空的Student stu = new Student();对于上面代码,new出来的对象stu,首先会分配在eden区,如果eden区满了就会触发第一次GC,这次GC会把活的对象拷贝到s0如果eden区第二次满了,那么会再次触发GC,此时,ede...

2019-07-28 22:14:35 117

原创 JVM系列(二)

Java代码执行流程计算机只认识.class文件ClassLoader把.class文件加载进来之后就会在运行时的数据区里先创建一个Java文件,vim JVMDemo.java内容如下public class JVMDemo { public static void main(String[] args) throws InterruptedExcep...

2019-07-28 12:06:37 104

原创 JVM系列(一)

JVM模式client模式,默认32位的Windows系统都采用这种模式 server模式,只要是32位的其他系统,高于2G,2Core的都采取这种模式,现在基本都是server模式了类型解释型int,不会把Java代码转变为本地代码 编译型compile,会编译成本地代码,所以第一次编译会慢一点 mixed mode 就是让JVM来决定我们的代码编译成哪种类型-Xc...

2019-07-27 17:30:59 138

原创 在Zeppelin上运行Spark程序

前言不得不说,Spark在Zeppelin上的使用还是比较方便的,比你在终端启动一个spark-shell或者spark-sql强太多了。闲话少说,我们一起来看一看吧!读取本地JSON文件由于Zeppelin默认支持Spark,所以可以不用在开头加上%spark关键词接着我们创建一张临时表,使用SQL来查询妥妥的!注意SQL语句的结尾不要加分号,不然会报错!读取HD...

2019-07-25 15:36:45 1730

原创 阿里云日志服务 + Flume + Kafka + Spark Streaming--问题排查及解决(其中包含打小胖包的步骤)

项目的最后一步是把IDEA中的程序打包上传到服务器上,并在服务器上面运行,在运行作业的过程中,出现了不少的问题,罗列如下我的jar包路径写错了spark-submit \--master yarn \--name "online_number" \--num-executors 1 \--executor-cores 1 \--executor-memory 2G \--...

2019-07-25 12:12:47 243

原创 MAC下IDEA切换JDK版本

如下图,今天在导入源代码的时候报错了莫慌,Google了一番,解决方案如下搞定!!

2019-07-23 12:27:01 2485

原创 Flink的源码编译兼容Hadoop2.6.0-CDH-5.7.0

因为我本地的Hadoop版本为hadoop-2.6.0-cdh5.7.0,所以根据这个Hadoop版本来编译Flink编译Flink源码前置条件Maven 3.3.9 or newerJava 8+Scala好,检查过后,没啥问题了。Flink的源码托管在Github上面,先去那里看一看https://github.com/apache/flink今天我们要...

2019-07-21 16:15:06 887

原创 Zeppelin安装及集成MySQL的使用

注意事项企业来讲,肯定选择 Build from source,因为我们肯定要改代码然后自己编译 如果要权限控制,修改shiro.ini,Zeppelin默认使用shiro来控制权限,默认情况是匿名用户anonymous,可以在shiro.ini配置文件中进行用户名,密码,权限的配置 zepplin不可能是单独使用的,在生产上是嵌进数据平台的,数据平台登录有一个权限,所以肯定有数据平台权限...

2019-07-16 18:17:19 456

原创 阿里云日志服务 + Flume + Kafka + Spark Streaming--part four (未完成)

这篇博客,我们一起来实现一个功能,实时舆论监控。今天学到了一句话,Talk is cheap, show me your code,分享给大家好,我们开始!背景公司现有的舆论监控是这样的,运营人员每隔一段时间会去查看阿里云日志服务的日志,但由于运营人员不熟这一块,肯定是不能让他们直接上阿里云去查看的,所以我们的开发在GM的菜单栏上加上了这个功能,当运营人员要查看玩家聊天日志的时候,...

2019-07-10 18:54:14 146

原创 阿里云日志服务 + Flume + Kafka + Spark Streaming--part three

重点终于来了!!!我们不用着急,一步一步来迭代前两篇文章分别介绍了Flume把阿里云日志服务的日志采集过来,然后流到Kafka,也就是说,目前为止,我们已经成功打通了阿里云日志服务 --> Flume --> Kafka这条链路。我们接着开干。首先我们先看一下Spark Streaming的代码package com.ruozedata.spark.slsim...

2019-07-09 14:56:51 585

原创 Grafana整合InfluxDB

首先我们还是跟着Grafana官网走来到Grafana server界面,点击Add data source,如下图点击InfluxDB接着返回首页,点击New dashboard点击Add Query填写了一些查询条件ok,然后再返回首页好,至此,Grafana整合InfluxDB完毕!!!...

2019-07-08 16:36:16 866

原创 InfluxDB安装和使用

今天来点简单的InfluxDB安装首先老规矩,官网[root@hadoop004 software]# cat <<EOF | sudo tee /etc/yum.repos.d/influxdb.repo> [influxdb]> name = InfluxDB Repository - RHEL \$releasever> ba...

2019-07-08 15:28:23 3427

原创 Grafana安装和使用

今天来点简单的Grafana安装首先老规矩,官网开始安装[hadoop@hadoop004 software]$ wget https://dl.grafana.com/oss/release/grafana-6.2.5-1.x86_64.rpm[root@hadoop004 software]# yum localinstall grafana-6.2.5-1....

2019-07-08 11:23:48 2424

原创 阿里云日志服务 + Flume + Kafka + Spark Streaming--part two

上次成功的通过Flume收集到了阿里云日志服务的日志,今天就把从Flume从阿里云日志服务采集过来的日志sink到Kafka启动Kafka[hadoop@hadoop004 kafka_2.11-0.10.0.0]$ nohup bin/kafka-server-start.sh config/server.properties >/dev/null 2>&1 &a...

2019-07-05 16:39:27 531

原创 阿里云日志服务 + Flume + Kafka + Spark Streaming--part one

由于历史的原因,公司所有的日志都通过阿里云日志服务的logtail进行收集并存储到日志服务首先查看阿里云日志服务SLS的官方文档https://help.aliyun.com/document_detail/123446.html#title-4jc-gkl-7nq上面的文档有Flume关于sls配置文件的配置阿里云日志服务sls的Flume插件安装https://github...

2019-07-05 11:25:17 966 5

原创 Airflow + MySQL

进入MySQL数据库mysql> create database airflow;mysql> create user 'airflow'@'%' identified by '';Query OK, 0 rows affected (0.00 sec)mysql> create user 'airflow'@'localhost' identified by ...

2019-07-04 20:44:05 3355

原创 Airflow初探

简介Airflow官网Airflow今年年初成为了Apache的顶级项目,它是由Python编写的一个任务调度框架。安装看官网[hadoop@hadoop004 airflow]$ export AIRFLOW_HOME=~/airflow[hadoop@hadoop004 airflow]$ sudo pip3 install apache-airflow...

2019-07-04 10:03:31 514

原创 单手解Spark之Executor计算执行逻辑

Driver 中的 CoarseGrainedSchedulerBackend 给 CoarseGrainedExecutor­Backend 发送 LaunchTask 消息反序列化TaskDescription点击进入decode方法Executor会通过 launchTask执行 Task。点击进入launchTask方法Executor的launchTask...

2019-07-02 18:00:43 275

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除