BigData
ylqdh
如果对文章有疑问、不同见解的,欢迎留言或邮件交流,邮箱-> ylqdh@yeliqun.xyz
展开
-
Flink的各种Transformations 代码例子-- Java和Scala实现
在上一篇博客Flink创建数据源的各种方式–Java和scala实现中,介绍了Flink的创建数据源的各种方式,本篇就开始介绍大数据处理的第二步,转换。同样,本文均参考自Flink官网,有不懂的可以直接看官网,更权威。https://ci.apache.org/projects/flink/flink-docs-release-1.9/de...原创 2020-01-16 11:25:56 · 373 阅读 · 0 评论 -
Flink创建数据源的各种方式--Java和scala实现
在上一篇博客<各种大数据框架处理流程>,我们可以知道:大数据中流行的各种计算框架都是从数据输入–>转换–>输出。数据输入的方式有多种,这篇博客就来介绍一下Flink创建数据源,也就是输入的各种方式。 以下内容,均参考自Flink官网,如有不懂的可直接读官方文档 https://ci.apac...原创 2020-01-14 17:16:40 · 988 阅读 · 0 评论 -
Flink 基础API概念
Flink各种API概念,相关解释,详情查看Flink官网原创 2020-01-07 11:26:13 · 102 阅读 · 0 评论 -
各种大数据框架处理流程
每个框架都是类似的,从input输出数据,经过一系列的转换、计算过程,输出数据到指定的地方。原创 2020-01-07 09:06:42 · 380 阅读 · 1 评论 -
Hive拉链表更新
数据准备原创 2019-12-18 10:10:32 · 608 阅读 · 0 评论 -
Kafka与Spark Streaming集成,如何保证exactly once语义
目录一、流处理系统中的三种消息传递语义二、Kafka输入端三、Spark Streaming处理端四、输出端 spark streaming集成Kafka时,数据处理的语义很重要,如何保证数据只能被处理一次而不重复?接下来将详细介绍。一、流处理系统中的三种消息传递语义at least once:每条消息会被收到1次或多次at most once:每...原创 2019-12-11 12:08:26 · 485 阅读 · 0 评论 -
Flume+Kafka+SparkStreaming实时统计网站日志 -- 4、SparkStreaming实时统计
日志采集到了Kafka,接下来要使用Spark Streaming,根据不同需求来统计数据。原创 2019-11-26 18:59:34 · 546 阅读 · 0 评论 -
flume+Kafka采集log4j数据
简介:测试flume+Kafka集成来采集log4j产生的日志环境:Flume 1.6.0Kafka 0.11.0.2jdk 1.8.0_121Kafka集群、flume安装服务器上ubuntu16.04.5上一、log4j生成数据在window上,编写Java程序,模拟日志生成import org.apache.log4j.Logger;/* 模拟日志生成 */...原创 2019-11-22 10:33:44 · 197 阅读 · 0 评论 -
Spark Streaming接收Kafka数据进行wordcount
组件环境:Spark 2.4.4Kafka 2.11-0.11.0.2JDK 1.8.0_121Scala 2.11.8Maven 3.5.0本地开发在window10,IDEA 2017.2,Spark集群在服务器上。要提一点Kafka的版本问题,像我这里的Kafka2.11-0.11.0.2,2.11是Scala版本,0.11.0.2才是Kafka的版本。Spark Strea...原创 2019-11-20 18:47:10 · 293 阅读 · 0 评论 -
Spark Streaming使用pull模式接收Flume传送的数据并进行WordCount统计
根据前文 spark streaming使用push模式读取flume数据 官网中认为push模式是不可靠的,而认为pull模式可靠,故推荐大家使用pull模式,本文将测试spark streaming使用pull模式读取flume过来的数据,并统计WordCount。测试环境:Spark 2.4.4Flume 1.6.0Scala 2.11....原创 2019-11-20 11:43:57 · 282 阅读 · 0 评论 -
IDEA首次配置maven开发spark详细步骤
一.各软件下载windows 10IDEA 2018 3.2maven 3.6.1## 一开始使用3.6.2版本的,配置完出了问题,换回3.6.1https://archive.apache.org/dist/maven/maven-3/3.6.1/binaries/apache-maven-3.6.1-bin.zipjdk 1.8.0_192scala 2.12.10#...原创 2019-11-16 21:22:33 · 467 阅读 · 0 评论 -
Spark Streaming使用push模式接收Flume传送的数据并进行WordCount统计
Spark Streaming 接收外部数据的高级API,有Flume、Kafka、Kinesis,这篇文章简单实操,接收Flume的数据,通过Push模式。原创 2019-11-15 08:52:55 · 450 阅读 · 0 评论 -
Spark Streaming核心概念
一、Spark Streaming流处理的本质 从源输入的数据(Flume、Kafka、hdfs、socket等)源源不断的流入Spark Streaming,Spark Streaming根据时间间隔切分数据,形成一个一个的批次,然后根据定义好的处理流程、算子操作,对每个批次的数据进行处理。处理的过程其实还是转换为Spark引擎来执行相应的任务,最后得...原创 2019-11-13 16:49:49 · 137 阅读 · 0 评论 -
Kafka简单使用
Kafka相关介绍和命令原创 2019-11-12 15:43:48 · 208 阅读 · 0 评论