坐在6号工位打螺丝-CSDN博客

原创数据结构与算法：四大排序

【代码】数据结构与算法：四大排序。

2022-10-08 22:34:57 286

原创数据结构与算法：单向链表和环形链表

【代码】数据结构与算法：单向链表和环形链表。

2022-10-08 22:25:15 240

原创数据结构与算法：单向队列和环形队列

【代码】数据结构：单向队列和环形队列。

2022-10-08 22:20:49 263

原创 flink1.15源码笔记(run模式简单带过，主要看run-application)

从源码层面去查看flink的运行机制，时间有限，超不定时持续更新中。。。

2022-07-01 10:38:34 1090

import com.yan.traffic.utils.areaSpeedLimitInfoimport org.apache.flink.configuration.Configurationimport org.apache.flink.streaming.api.functions.source.{RichSourceFunction, SourceFunction}import java.sql.{Connection, DriverManager, PreparedStatement}.

2022-04-24 18:05:56 3086

原创 flink的8个底层ProcessFunction，带示例

flink的8个底层ProcessFunction，带示例8个底层ProcessFunctionKeyedProcessFunction：10秒内温度连续上升报警8个底层ProcessFunctionProcessFunctionKeyedProcessFunctionCoProcessFunctionProcessJoinFunctionBroadcastProcessFunctionKeyedBroadcastProcessFunctionProcessWindowFunctionP

2021-11-20 20:18:13 1351

原创 flink的状态和示例

flink的状态和示例什么是状态？状态种类Operator State （算子状态）Keyed State（建控状态）使用时，必须创建一个StateDescriptor例子：两次温差大于10则显示什么是状态？大多数流应用程序都是有状态的。许多算子会不断地读取和更新状态例如worldcount程序，也要读取当前的状态去计算再更新状态。可以简单理解为保存上一次计算的结果，用以下一次计算状态种类Operator State （算子状态）BroadcastState：用于广播的算子状态。ListSt

2021-11-20 15:17:54 1219

原创 sparksql转换和自定义函数操作

SparkSqlpackage spark_sqlimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}case class Emp(name: String, age: Long)object spark_sql_json extends App { val ss: SparkSession = SparkSession.builder().

2021-10-19 17:29:18 231

原创 spark-core的几个案例

spark-core的几个案例需求一：热门品类的top10方法一：分别得到品类的点击、下单、付款数量，再像sql操作一样使用cogroup关联起来方法二：将rdd添加缓存，且避免了cogroup方法三：方法四：采用累加器进行统计（代码量复杂但是效率高）需求一：热门品类的top10Top10 热门品类:先按照点击数排名，靠前的就排名高；如果点击数相同，再比较下单数；下单数再相同，就比较支付数。方法一：将各品类的数量求出来，在用cogroup关联（效率低）方法二：将rdd缓存，union替代cogrou

2021-10-17 14:23:19 416

原创 rdd的操作和基本逻辑

rdd的操作和基本逻辑cache,persist,checkpoint三者的区别分区器（自定义分区）cache,persist,checkpoint三者的区别chche：缓存在内存中，效率高但是不安全，存在数据丢失和内存溢出的风险。而且会在血缘关系中添加依赖persist：将数据落在磁盘中，可选等级也较为安全。但是在计算完成之后会删除。会在血缘关系中添加依赖checkpoint：将数据永久保存在路径中（HDFS），可永久保存但是不参与原本的计算会独立计算一次。为了提升效率，一般和cache联合使用

2021-10-16 15:59:44 125

原创 spark的转换算子及一个案例

spark的转换算子map：同分区有序运行，不同分区无序运行mapPartitions:一次性取数一个分区，在分区内计算golm：将一个分区的数据变成集合groupBy：讲数据源中的每一个数据进行key进行分filter：过滤，返回布尔类型sampledistinctcoalesce：缩减分区repartition：其实就是(coalesce(shuffle true))sortBy：会进行shuffle，默认不改变分区且升序双value的操作，（交集，并集，差集，拉链）partitionBy：grou

2021-10-10 18:54:26 701

原创配置maven和Scala环境，并且运行第一个spark项目

配置maven和Scala环境，并且运行第一个spark项目1、安装maven和scala下载安装maven安装Scala2、IDEA配置maven和Scalamaven：Scala：3、创建maven的spark工程创建一个简单的wordcount吧1、安装maven和scala下载maven下载地址Scala2.12下载地址安装maven下载解压到D:\maven目录下环境变量MAVEN_HOME，赋值D:\maven环境变量Path，追加%MAVEN_HOME%\bin;cmd输入

2021-09-25 11:49:13 945

原创安装spark-on-yarn

安装spark-on-yarn配置hadoop添加修改spark测试spark配置hadoop添加vim /opts/hadoop/etc/hadoop/yarn-site.xml<property> <name>yarn.nodemanager.pmem-check-enabled</name> <value>false</value> </property><prop

2021-09-14 23:05:48 363

原创快速配置hadoop3.1.3

配置hadoop3.1.3安装zookeeper（略）关闭防火墙node01生成公钥和私钥(全部机器运行)安装jdk查看自带的jdk卸载自带的openjdk解压jdk配置jdk环境变量保存后分发jdk也可以这样配置环境变量安装hadoop3.1.3解压配置环境变量分发Hadoop配置Hadoop参数配置文件所在目录core-site.xmlhdfs-site.xmlyarn-site.xmlmapred-site.xmlworkers分发配置文件启动集群只有第一次启动需要在NameNode的机器上格式化正常

2021-09-12 22:52:47 1258

原创 06_spark数据倾斜

spark数据倾斜什么是数据倾斜解决方法（思路和hive其实比较像）一、使用Hive ETL预处理数据二、过滤少数导致倾斜的key三、提高shuffle操作的并行度四、两阶段聚合（局部聚合+全局聚合）五、将reduce join转为map join六、采样倾斜key并分拆join操作什么是数据倾斜数据倾斜是大数据领域一个很常见的问题，通常表现为其余task很早就完成了，但是极个别task时效很久或者压根就完不成。原因通常为数据分布极为不均，某一个key的数据太多而加载到一个task中工作(MapRe

2021-09-07 15:16:41 110

原创 05_SparkCore的调优

05_SparkCore的调优SparkCore的调优的一般方向1、避免重复创建RDD2、尽可能复用同一个RDD3、对多次使用的RDD进行持久化sc..cache()或者sc.persist() :前者缓存，后者参数可选放到内存或者磁盘中4、尽量避免使用shuffle类算子Broadcast与map进行join5、使用map-side预聚合的shuffle操作6、使用高性能的算子7、广播大变量*以下了解不多*8、使用Kryo优化序列化性能9、优化数据结构10、Data Locality本地化级别Spark

2021-09-07 10:16:43 307

weixin_44429965的博客

原创数据结构与算法：四大排序

原创数据结构与算法：单向链表和环形链表

原创数据结构与算法：单向队列和环形队列

原创 flink1.15源码笔记(run模式简单带过，主要看run-application)

原创 flink自定义jdbcsource

原创 flink的8个底层ProcessFunction，带示例

原创 flink的状态和示例

原创 sparksql转换和自定义函数操作

原创 spark-core的几个案例

原创 rdd的操作和基本逻辑

原创 spark的转换算子及一个案例

原创配置maven和Scala环境，并且运行第一个spark项目

原创安装spark-on-yarn

原创快速配置hadoop3.1.3

原创 06_spark数据倾斜

原创 05_SparkCore的调优

原创 04_spark运行流程

原创 03_spark广播变量和累加器

原创 02_sparkRDD

原创 01_Spark

原创各框架运行机制

原创 Kafka确保消息不丢失

原创 Kafka的基本架构

空空如也

空空如也