- 博客(24)
- 资源 (2)
- 收藏
- 关注
原创 根据后缀表达式计算结果(Java实现)
在上一篇中缀表达式转换为后缀表达式,我们已经将中缀表达式转换为了后缀表达式,接下来我们看看怎么根据后缀表达式计算出结果。 先创建一个数据结构,栈,作为存储。 同样,我们把后缀表达式看作是一个字符串,然后从左到右一个一个字符进行判断,规则如下:A.如果是数字,直接进栈B...
2020-04-07 11:34:25 930
原创 华为机考笔试题 -- 数组按顺序合并(Java实现)
一道Java笔试题,有多个数组,按照指定的长度n,顺序地把数组的前n个元素放到一个结果中,最后数组的所有元素都放在结果里。
2020-03-27 14:46:22 2250 2
原创 Flink的各种Transformations 代码例子-- Java和Scala实现
在上一篇博客Flink创建数据源的各种方式–Java和scala实现中,介绍了Flink的创建数据源的各种方式,本篇就开始介绍大数据处理的第二步,转换。同样,本文均参考自Flink官网,有不懂的可以直接看官网,更权威。https://ci.apache.org/projects/flink/flink-docs-release-1.9/de...
2020-01-16 11:25:56 369
原创 Flink创建数据源的各种方式--Java和scala实现
在上一篇博客<各种大数据框架处理流程>,我们可以知道:大数据中流行的各种计算框架都是从数据输入–>转换–>输出。数据输入的方式有多种,这篇博客就来介绍一下Flink创建数据源,也就是输入的各种方式。 以下内容,均参考自Flink官网,如有不懂的可直接读官方文档 https://ci.apac...
2020-01-14 17:16:40 985
原创 Kafka与Spark Streaming集成,如何保证exactly once语义
目录一、流处理系统中的三种消息传递语义二、Kafka输入端三、Spark Streaming处理端四、输出端 spark streaming集成Kafka时,数据处理的语义很重要,如何保证数据只能被处理一次而不重复?接下来将详细介绍。一、流处理系统中的三种消息传递语义at least once:每条消息会被收到1次或多次at most once:每...
2019-12-11 12:08:26 480
原创 50道经典SQL练习题 -- 更新完成
网上流传较广的50道SQL训练,花好几天终于写完了,和参考了网上的部分答案,但很多都是自己理解后写的,可能会有一些错误或更优解,欢迎指出。
2019-12-04 12:06:50 1839
原创 Flume+Kafka+SparkStreaming实时统计网站日志 -- 4、SparkStreaming实时统计
日志采集到了Kafka,接下来要使用Spark Streaming,根据不同需求来统计数据。
2019-11-26 18:59:34 541
原创 flume+Kafka采集log4j数据
简介:测试flume+Kafka集成来采集log4j产生的日志环境:Flume 1.6.0Kafka 0.11.0.2jdk 1.8.0_121Kafka集群、flume安装服务器上ubuntu16.04.5上一、log4j生成数据在window上,编写Java程序,模拟日志生成import org.apache.log4j.Logger;/* 模拟日志生成 */...
2019-11-22 10:33:44 196
原创 Spark Streaming接收Kafka数据进行wordcount
组件环境:Spark 2.4.4Kafka 2.11-0.11.0.2JDK 1.8.0_121Scala 2.11.8Maven 3.5.0本地开发在window10,IDEA 2017.2,Spark集群在服务器上。要提一点Kafka的版本问题,像我这里的Kafka2.11-0.11.0.2,2.11是Scala版本,0.11.0.2才是Kafka的版本。Spark Strea...
2019-11-20 18:47:10 289
原创 Spark Streaming使用pull模式接收Flume传送的数据并进行WordCount统计
根据前文 spark streaming使用push模式读取flume数据 官网中认为push模式是不可靠的,而认为pull模式可靠,故推荐大家使用pull模式,本文将测试spark streaming使用pull模式读取flume过来的数据,并统计WordCount。测试环境:Spark 2.4.4Flume 1.6.0Scala 2.11....
2019-11-20 11:43:57 280
原创 IDEA首次配置maven开发spark详细步骤
一.各软件下载windows 10IDEA 2018 3.2maven 3.6.1## 一开始使用3.6.2版本的,配置完出了问题,换回3.6.1https://archive.apache.org/dist/maven/maven-3/3.6.1/binaries/apache-maven-3.6.1-bin.zipjdk 1.8.0_192scala 2.12.10#...
2019-11-16 21:22:33 464
原创 Spark Streaming使用push模式接收Flume传送的数据并进行WordCount统计
Spark Streaming 接收外部数据的高级API,有Flume、Kafka、Kinesis,这篇文章简单实操,接收Flume的数据,通过Push模式。
2019-11-15 08:52:55 446
原创 Spark Streaming核心概念
一、Spark Streaming流处理的本质 从源输入的数据(Flume、Kafka、hdfs、socket等)源源不断的流入Spark Streaming,Spark Streaming根据时间间隔切分数据,形成一个一个的批次,然后根据定义好的处理流程、算子操作,对每个批次的数据进行处理。处理的过程其实还是转换为Spark引擎来执行相应的任务,最后得...
2019-11-13 16:49:49 135
原创 Flume+Kafka+SparkStreaming实时统计网站日志--3、Flume采集数据到Kafka
Flume采集日志数据到Kafka过程中Flume配置文件写法,Kafka topic创建、消费者查看结果
2019-11-13 10:01:15 830 1
原创 Flume+Kafka+SparkStreaming实时统计网站日志--2、项目技术选型和项目架构
一、项目技术选型 基于 Spark实时流统计网站日志–1、项目介绍 ,选择flume、Kafka、Spark Streaming来完成本项目。数据流向图如下: flume_kafka_spark集成数据流向图,红色箭头为数据流向,当数据经过Spark Streaming处理后,存入HBase,然后在web上展示。具体的做法见后...
2019-11-12 17:16:24 386
原创 Flume+Kafka+SparkStreaming实时统计网站日志--1.项目介绍
使用Flume+Kafka+Spark Streaming统计主站每个(指定)课程访问的每天的点击量、不同搜索引擎引流的点击量
2019-11-12 08:59:35 296
ubuntu16 server详细安装过程.docx
2019-11-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人