![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Scala
文章平均质量分 55
坐在6号工位打螺丝
这个作者很懒,什么都没留下…
展开
-
flink自定义jdbcsource
import com.yan.traffic.utils.areaSpeedLimitInfoimport org.apache.flink.configuration.Configurationimport org.apache.flink.streaming.api.functions.source.{RichSourceFunction, SourceFunction}import java.sql.{Connection, DriverManager, PreparedStatement}.原创 2022-04-24 18:05:56 · 2928 阅读 · 0 评论 -
flink的8个底层ProcessFunction,带示例
flink的8个底层ProcessFunction,带示例8个底层ProcessFunctionKeyedProcessFunction:10秒内温度连续上升报警8个底层ProcessFunctionProcessFunctionKeyedProcessFunctionCoProcessFunctionProcessJoinFunctionBroadcastProcessFunctionKeyedBroadcastProcessFunctionProcessWindowFunctionP原创 2021-11-20 20:18:13 · 1202 阅读 · 0 评论 -
flink的状态和示例
flink的状态和示例什么是状态?状态种类Operator State (算子状态)Keyed State(建控状态)使用时,必须创建一个StateDescriptor例子:两次温差大于10则显示什么是状态?大多数流应用程序都是有状态的。许多算子会不断地读取和更新状态例如worldcount程序,也要读取当前的状态去计算再更新状态。可以简单理解为保存上一次计算的结果,用以下一次计算状态种类Operator State (算子状态)BroadcastState:用于广播的算子状态。ListSt原创 2021-11-20 15:17:54 · 1136 阅读 · 0 评论 -
sparksql转换和自定义函数操作
SparkSqlpackage spark_sqlimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}case class Emp(name: String, age: Long)object spark_sql_json extends App { val ss: SparkSession = SparkSession.builder().原创 2021-10-19 17:29:18 · 170 阅读 · 0 评论 -
rdd的操作和基本逻辑
rdd的操作和基本逻辑cache,persist,checkpoint三者的区别分区器(自定义分区)cache,persist,checkpoint三者的区别chche:缓存在内存中,效率高但是不安全,存在数据丢失和内存溢出的风险。而且会在血缘关系中添加依赖persist:将数据落在磁盘中,可选等级也较为安全。但是在计算完成之后会删除。会在血缘关系中添加依赖checkpoint:将数据永久保存在路径中(HDFS),可永久保存但是不参与原本的计算会独立计算一次。为了提升效率,一般和cache联合使用原创 2021-10-16 15:59:44 · 72 阅读 · 0 评论 -
spark的转换算子及一个案例
spark的转换算子map:同分区有序运行,不同分区无序运行mapPartitions:一次性取数一个分区,在分区内计算golm:将一个分区的数据变成集合groupBy:讲数据源中的每一个数据进行key进行分filter:过滤,返回布尔类型sampledistinctcoalesce: 缩减分区repartition:其实就是(coalesce(shuffle true))sortBy: 会进行shuffle,默认不改变分区且升序双value的操作,(交集,并集,差集,拉链)partitionBy:grou原创 2021-10-10 18:54:26 · 282 阅读 · 0 评论 -
配置maven和Scala环境,并且运行第一个spark项目
配置maven和Scala环境,并且运行第一个spark项目1、安装maven和scala下载安装maven安装Scala2、IDEA配置maven和Scalamaven:Scala:3、创建maven的spark工程创建一个简单的wordcount吧1、安装maven和scala下载maven下载地址Scala2.12下载地址安装maven下载解压到D:\maven目录下环境变量MAVEN_HOME,赋值D:\maven环境变量Path,追加%MAVEN_HOME%\bin;cmd输入原创 2021-09-25 11:49:13 · 798 阅读 · 0 评论 -
安装spark-on-yarn
安装spark-on-yarn配置hadoop添加修改spark测试spark配置hadoop添加vim /opts/hadoop/etc/hadoop/yarn-site.xml<property> <name>yarn.nodemanager.pmem-check-enabled</name> <value>false</value> </property><prop原创 2021-09-14 23:05:48 · 185 阅读 · 0 评论 -
06_spark数据倾斜
spark数据倾斜什么是数据倾斜解决方法(思路和hive其实比较像)一、使用Hive ETL预处理数据二、过滤少数导致倾斜的key三、提高shuffle操作的并行度四、两阶段聚合(局部聚合+全局聚合)五、将reduce join转为map join六、采样倾斜key并分拆join操作什么是数据倾斜数据倾斜是大数据领域一个很常见的问题,通常表现为其余task很早就完成 了,但是极个别task时效很久或者压根就完不成。原因通常为数据分布极为不均,某一个key的数据太多而加载到一个task中工作(MapRe原创 2021-09-07 15:16:41 · 54 阅读 · 0 评论 -
04_spark运行流程
04_spark运行流程基本概念Spark的运行流程基本概念Application:应用程序Driver:main函数,创建的SparkContext。由SparkContext和ClusterManager通信进行资源申请Executer:某个Application运行在Worker节点的进程,负责运行某些具体的task,负责将数据存在内存或者磁盘上。Worker:集群中可以运行Application代码的节点。Standalone模式是slave配置的节点,Spark on Yarn就是指N原创 2021-09-06 16:29:40 · 153 阅读 · 0 评论 -
03_spark广播变量和累加器
广播变量和累加器什么是广播变量?定义一个广播变量注意事项什么是累加器?什么是广播变量?driver端分发任务,每一个executor(可以理解成worker)总的多个task从executor获取信息,而不是直接从driver段获取,可以节省带宽和资源定义一个广播变量val a = 3val broadcast = sc.broadcast(a)//还原val c = broadcast.value注意事项不能将一个RDD使用广播变量广播出去,因为RDD是不存储数据的。可以将RDD的结原创 2021-09-06 16:28:35 · 56 阅读 · 0 评论 -
02_sparkRDD
02_sparkRDD创建sc,spark的陈旭编写都是从SparkContext开始的从文件中获取数据已经存在的Scala集合创建sc,spark的陈旭编写都是从SparkContext开始的import org.apache.spark.{SparkConf,SparkC ontext}val sc = new SparkContext("local","testRDD")从文件中获取数据val file = sc.textFile("/spark/hello.txt")已经存在的Sca原创 2021-09-06 16:27:30 · 87 阅读 · 0 评论 -
01_Spark
01_Spark什么是sparkspark是一个实现快速通用的集群计算平台spark组成下载Spark环境准备安装(略,建议百度)什么是sparkspark是一个实现快速通用的集群计算平台spark组成SparkCore:将分布式数据抽象为弹性分布式数据集(RDD),为运行在其上的上层组件提供API。SparkSQL:可以让我使用SQL语句的方式来查询数据SparkStreaming: 是Spark提供的实时数据进行流式计算的组件。MLlib:提供常用机器学习算法的实现库。GraphX:提原创 2021-09-06 16:26:23 · 69 阅读 · 0 评论