自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 数据结构与算法:四大排序

【代码】数据结构与算法:四大排序。

2022-10-08 22:34:57 145

原创 数据结构与算法:单向链表和环形链表

【代码】数据结构与算法:单向链表和环形链表。

2022-10-08 22:25:15 177

原创 数据结构与算法:单向队列和环形队列

【代码】数据结构:单向队列和环形队列。

2022-10-08 22:20:49 137

原创 flink1.15源码笔记(run模式简单带过,主要看run-application)

从源码层面去查看flink的运行机制,时间有限,超不定时持续更新中。。。

2022-07-01 10:38:34 736

原创 flink自定义jdbcsource

import com.yan.traffic.utils.areaSpeedLimitInfoimport org.apache.flink.configuration.Configurationimport org.apache.flink.streaming.api.functions.source.{RichSourceFunction, SourceFunction}import java.sql.{Connection, DriverManager, PreparedStatement}.

2022-04-24 18:05:56 2930

原创 flink的8个底层ProcessFunction,带示例

flink的8个底层ProcessFunction,带示例8个底层ProcessFunctionKeyedProcessFunction:10秒内温度连续上升报警8个底层ProcessFunctionProcessFunctionKeyedProcessFunctionCoProcessFunctionProcessJoinFunctionBroadcastProcessFunctionKeyedBroadcastProcessFunctionProcessWindowFunctionP

2021-11-20 20:18:13 1204

原创 flink的状态和示例

flink的状态和示例什么是状态?状态种类Operator State (算子状态)Keyed State(建控状态)使用时,必须创建一个StateDescriptor例子:两次温差大于10则显示什么是状态?大多数流应用程序都是有状态的。许多算子会不断地读取和更新状态例如worldcount程序,也要读取当前的状态去计算再更新状态。可以简单理解为保存上一次计算的结果,用以下一次计算状态种类Operator State (算子状态)BroadcastState:用于广播的算子状态。ListSt

2021-11-20 15:17:54 1137

原创 sparksql转换和自定义函数操作

SparkSqlpackage spark_sqlimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}case class Emp(name: String, age: Long)object spark_sql_json extends App { val ss: SparkSession = SparkSession.builder().

2021-10-19 17:29:18 171

原创 spark-core的几个案例

spark-core的几个案例需求一:热门品类的top10方法一:分别得到品类的点击、下单、付款数量,再像sql操作一样使用cogroup关联起来方法二:将rdd添加缓存,且避免了cogroup方法三:方法四:采用累加器进行统计(代码量复杂但是效率高)需求一:热门品类的top10Top10 热门品类:先按照点击数排名,靠前的就排名高;如果点击数相同,再比较下单数;下单数再相同,就比较支付数。方法一:将各品类的数量求出来,在用cogroup关联(效率低)方法二:将rdd缓存,union替代cogrou

2021-10-17 14:23:19 235

原创 rdd的操作和基本逻辑

rdd的操作和基本逻辑cache,persist,checkpoint三者的区别分区器(自定义分区)cache,persist,checkpoint三者的区别chche:缓存在内存中,效率高但是不安全,存在数据丢失和内存溢出的风险。而且会在血缘关系中添加依赖persist:将数据落在磁盘中,可选等级也较为安全。但是在计算完成之后会删除。会在血缘关系中添加依赖checkpoint:将数据永久保存在路径中(HDFS),可永久保存但是不参与原本的计算会独立计算一次。为了提升效率,一般和cache联合使用

2021-10-16 15:59:44 73

原创 spark的转换算子及一个案例

spark的转换算子map:同分区有序运行,不同分区无序运行mapPartitions:一次性取数一个分区,在分区内计算golm:将一个分区的数据变成集合groupBy:讲数据源中的每一个数据进行key进行分filter:过滤,返回布尔类型sampledistinctcoalesce: 缩减分区repartition:其实就是(coalesce(shuffle true))sortBy: 会进行shuffle,默认不改变分区且升序双value的操作,(交集,并集,差集,拉链)partitionBy:grou

2021-10-10 18:54:26 283

原创 配置maven和Scala环境,并且运行第一个spark项目

配置maven和Scala环境,并且运行第一个spark项目1、安装maven和scala下载安装maven安装Scala2、IDEA配置maven和Scalamaven:Scala:3、创建maven的spark工程创建一个简单的wordcount吧1、安装maven和scala下载maven下载地址Scala2.12下载地址安装maven下载解压到D:\maven目录下环境变量MAVEN_HOME,赋值D:\maven环境变量Path,追加%MAVEN_HOME%\bin;cmd输入

2021-09-25 11:49:13 801

原创 安装spark-on-yarn

安装spark-on-yarn配置hadoop添加修改spark测试spark配置hadoop添加vim /opts/hadoop/etc/hadoop/yarn-site.xml<property> <name>yarn.nodemanager.pmem-check-enabled</name> <value>false</value> </property><prop

2021-09-14 23:05:48 186

原创 快速配置hadoop3.1.3

配置hadoop3.1.3安装zookeeper(略)关闭防火墙node01生成公钥和私钥(全部机器运行)安装jdk查看自带的jdk卸载自带的openjdk解压jdk配置jdk环境变量保存后分发jdk也可以这样配置环境变量安装hadoop3.1.3解压配置环境变量分发Hadoop配置Hadoop参数配置文件所在目录core-site.xmlhdfs-site.xmlyarn-site.xmlmapred-site.xmlworkers分发配置文件启动集群只有第一次启动需要在NameNode的机器上格式化正常

2021-09-12 22:52:47 702

原创 06_spark数据倾斜

spark数据倾斜什么是数据倾斜解决方法(思路和hive其实比较像)一、使用Hive ETL预处理数据二、过滤少数导致倾斜的key三、提高shuffle操作的并行度四、两阶段聚合(局部聚合+全局聚合)五、将reduce join转为map join六、采样倾斜key并分拆join操作什么是数据倾斜数据倾斜是大数据领域一个很常见的问题,通常表现为其余task很早就完成 了,但是极个别task时效很久或者压根就完不成。原因通常为数据分布极为不均,某一个key的数据太多而加载到一个task中工作(MapRe

2021-09-07 15:16:41 54

原创 05_SparkCore的调优

05_SparkCore的调优SparkCore的调优的一般方向1、避免重复创建RDD2、尽可能复用同一个RDD3、对多次使用的RDD进行持久化sc..cache()或者sc.persist() :前者缓存,后者参数可选放到内存或者磁盘中4、尽量避免使用shuffle类算子Broadcast与map进行join5、使用map-side预聚合的shuffle操作6、使用高性能的算子7、广播大变量*以下了解不多*8、使用Kryo优化序列化性能9、优化数据结构10、Data Locality本地化级别Spark

2021-09-07 10:16:43 80

原创 04_spark运行流程

04_spark运行流程基本概念Spark的运行流程基本概念Application:应用程序Driver:main函数,创建的SparkContext。由SparkContext和ClusterManager通信进行资源申请Executer:某个Application运行在Worker节点的进程,负责运行某些具体的task,负责将数据存在内存或者磁盘上。Worker:集群中可以运行Application代码的节点。Standalone模式是slave配置的节点,Spark on Yarn就是指N

2021-09-06 16:29:40 153

原创 03_spark广播变量和累加器

广播变量和累加器什么是广播变量?定义一个广播变量注意事项什么是累加器?什么是广播变量?driver端分发任务,每一个executor(可以理解成worker)总的多个task从executor获取信息,而不是直接从driver段获取,可以节省带宽和资源定义一个广播变量val a = 3val broadcast = sc.broadcast(a)//还原val c = broadcast.value注意事项不能将一个RDD使用广播变量广播出去,因为RDD是不存储数据的。可以将RDD的结

2021-09-06 16:28:35 56

原创 02_sparkRDD

02_sparkRDD创建sc,spark的陈旭编写都是从SparkContext开始的从文件中获取数据已经存在的Scala集合创建sc,spark的陈旭编写都是从SparkContext开始的import org.apache.spark.{SparkConf,SparkC ontext}val sc = new SparkContext("local","testRDD")从文件中获取数据val file = sc.textFile("/spark/hello.txt")已经存在的Sca

2021-09-06 16:27:30 87

原创 01_Spark

01_Spark什么是sparkspark是一个实现快速通用的集群计算平台spark组成下载Spark环境准备安装(略,建议百度)什么是sparkspark是一个实现快速通用的集群计算平台spark组成SparkCore:将分布式数据抽象为弹性分布式数据集(RDD),为运行在其上的上层组件提供API。SparkSQL:可以让我使用SQL语句的方式来查询数据SparkStreaming: 是Spark提供的实时数据进行流式计算的组件。MLlib:提供常用机器学习算法的实现库。GraphX:提

2021-09-06 16:26:23 69

原创 各框架运行机制

框架运行机制HDFS写数据流程DataNode工作机制(心跳机制)mapreduce工作流程yarn资源调度器机制HDFS写数据流程1:客户端向namenode发送请求2:namenode响应可以上传文件3:请求上传第一个block块4:返回node01,node02,node03,表示次用这三个节点5:项DataNode请求建block传输通道6:DataNode通过请求7:传输数据8:传输数据完成,向namenode发送信息DataNode工作机制(心跳机制)1:DataNode

2020-07-24 15:41:51 127

原创 Kafka确保消息不丢失

Kafka确保消息不丢失生产者bloker消费者生产者 采用ack机制:ack确认机制设置为0,表示不等待响应,不等待borker的确认信息,最小延迟,producer无法知道消息是否发生成功,消息可能丢失,但具有最大吞吐量。ack确认机制设置为-1,也就是让消息写入leader和所有的副本,ISR列表中的所有replica都返回确认消息。ack确认机制设置为1,leader已经接收了数据的确认信息,replica异步拉取消息,比较折中。ack确认机制设置为2,表示producer写parti

2020-06-20 12:53:28 100

原创 Kafka的基本架构

Kafka的基本架构producter(生产者):topic(主题):partition(分区):1.segment:a).index文件b).log文件:replica(副本):consumer(消费者):producter(生产者): 同一类消息push到一个topic里面,topic(主题): 存放同一类型的消息partition(分区): 一个topic分放到不同的节点下,且产生副本,里面含有都哦个segment1.segment: 一个partition文件里面含有把多

2020-06-16 16:13:17 95

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除