ylqdh-CSDN博客

在上一篇博客Flink创建数据源的各种方式–Java和scala实现中，介绍了Flink的创建数据源的各种方式，本篇就开始介绍大数据处理的第二步，转换。同样，本文均参考自Flink官网，有不懂的可以直接看官网，更权威。https://ci.apache.org/projects/flink/flink-docs-release-1.9/de...

2020-01-16 11:25:56 427

原创 Flink创建数据源的各种方式--Java和scala实现

在上一篇博客<各种大数据框架处理流程>，我们可以知道：大数据中流行的各种计算框架都是从数据输入–>转换–>输出。数据输入的方式有多种，这篇博客就来介绍一下Flink创建数据源，也就是输入的各种方式。以下内容，均参考自Flink官网,如有不懂的可直接读官方文档 https://ci.apac...

2020-01-14 17:16:40 1026

原创 Flink 基础API概念

Flink各种API概念，相关解释，详情查看Flink官网

2020-01-07 11:26:13 127

原创各种大数据框架处理流程

每个框架都是类似的，从input输出数据，经过一系列的转换、计算过程，输出数据到指定的地方。

2020-01-07 09:06:42 413 1

原创 Hive拉链表更新

数据准备

2019-12-18 10:10:32 658

原创 Kafka与Spark Streaming集成，如何保证exactly once语义

目录一、流处理系统中的三种消息传递语义二、Kafka输入端三、Spark Streaming处理端四、输出端 spark streaming集成Kafka时，数据处理的语义很重要，如何保证数据只能被处理一次而不重复？接下来将详细介绍。一、流处理系统中的三种消息传递语义at least once：每条消息会被收到1次或多次at most once：每...

2019-12-11 12:08:26 525

原创 50道经典SQL练习题 -- 更新完成

网上流传较广的50道SQL训练，花好几天终于写完了，和参考了网上的部分答案，但很多都是自己理解后写的，可能会有一些错误或更优解，欢迎指出。

2019-12-04 12:06:50 1901

原创 Flume+Kafka+SparkStreaming实时统计网站日志 -- 4、SparkStreaming实时统计

日志采集到了Kafka，接下来要使用Spark Streaming，根据不同需求来统计数据。

2019-11-26 18:59:34 581

原创 flume+Kafka采集log4j数据

简介：测试flume+Kafka集成来采集log4j产生的日志环境：Flume 1.6.0Kafka 0.11.0.2jdk 1.8.0_121Kafka集群、flume安装服务器上ubuntu16.04.5上一、log4j生成数据在window上，编写Java程序，模拟日志生成import org.apache.log4j.Logger;/* 模拟日志生成 */...

2019-11-22 10:33:44 235

原创 Spark Streaming接收Kafka数据进行wordcount

组件环境：Spark 2.4.4Kafka 2.11-0.11.0.2JDK 1.8.0_121Scala 2.11.8Maven 3.5.0本地开发在window10，IDEA 2017.2，Spark集群在服务器上。要提一点Kafka的版本问题，像我这里的Kafka2.11-0.11.0.2，2.11是Scala版本，0.11.0.2才是Kafka的版本。Spark Strea...

2019-11-20 18:47:10 327

原创 Spark Streaming使用pull模式接收Flume传送的数据并进行WordCount统计

根据前文 spark streaming使用push模式读取flume数据官网中认为push模式是不可靠的，而认为pull模式可靠，故推荐大家使用pull模式，本文将测试spark streaming使用pull模式读取flume过来的数据，并统计WordCount。测试环境：Spark 2.4.4Flume 1.6.0Scala 2.11....

2019-11-20 11:43:57 306

原创 IDEA首次配置maven开发spark详细步骤

一.各软件下载windows 10IDEA 2018 3.2maven 3.6.1## 一开始使用3.6.2版本的，配置完出了问题，换回3.6.1https://archive.apache.org/dist/maven/maven-3/3.6.1/binaries/apache-maven-3.6.1-bin.zipjdk 1.8.0_192scala 2.12.10#...

2019-11-16 21:22:33 498

原创 Spark Streaming使用push模式接收Flume传送的数据并进行WordCount统计

Spark Streaming 接收外部数据的高级API，有Flume、Kafka、Kinesis，这篇文章简单实操，接收Flume的数据，通过Push模式。

2019-11-15 08:52:55 483

原创 Spark Streaming核心概念

一、Spark Streaming流处理的本质从源输入的数据(Flume、Kafka、hdfs、socket等)源源不断的流入Spark Streaming，Spark Streaming根据时间间隔切分数据，形成一个一个的批次，然后根据定义好的处理流程、算子操作，对每个批次的数据进行处理。处理的过程其实还是转换为Spark引擎来执行相应的任务，最后得...

2019-11-13 16:49:49 170

原创 Flume+Kafka+SparkStreaming实时统计网站日志--3、Flume采集数据到Kafka

Flume采集日志数据到Kafka过程中Flume配置文件写法，Kafka topic创建、消费者查看结果

2019-11-13 10:01:15 895 1

原创 Flume+Kafka+SparkStreaming实时统计网站日志--2、项目技术选型和项目架构

一、项目技术选型基于 Spark实时流统计网站日志–1、项目介绍，选择flume、Kafka、Spark Streaming来完成本项目。数据流向图如下： flume_kafka_spark集成数据流向图，红色箭头为数据流向，当数据经过Spark Streaming处理后，存入HBase，然后在web上展示。具体的做法见后...

2019-11-12 17:16:24 434