自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

紫蝶侠的博客

学习使人进步

  • 博客(42)
  • 资源 (7)
  • 收藏
  • 关注

原创 Spark性能调优实战(基础知识)-极客时间-吴磊

课程连接:https://time.geekbang.org/column/intro/4001.spark调优整体方法论性能调优的目的性能调优的最终目的,是在所有参与计算的硬件资源之间寻求协同与平衡,让硬件资源达到一种平衡、无瓶颈的状态。不能一直这么无限循环下去。执行性能最好(运行时间最短)任务并不是那些把 CPU 利用率压榨到 100%,以及把内存设置到最大的配置组合,而是那些硬件资源配置最均衡的计算任务。调优的主要套路以性能为导向的开发习惯,开发者可以按图索骥地去开展性能调优工作,做到

2021-05-31 11:29:33 6032

转载 Spark中foreachPartition和mapPartitions的区别

Spark-core 中foreachPartition和mapPartitions的区别foreachPartition应该属于action运算操作,而mapPartitions是在Transformation中,所以是转化操作,此外在应用场景上区别是mapPartitions可以获取返回值,继续在返回RDD上做其他的操作,而foreachPartition因为没有返回值并且是action操作,所以使用它一般都是在程序末尾比如说要落地数据到存储系统中如mysql,es,或者hbase中,可以用

2021-05-28 10:08:17 484

转载 SparkStreaming中的foreachRDD、spark-core中foreach、spark-core中foreachPartition三者之间的区别

SparkStreaming中的foreachRDD、spark-core中foreach、spark-core中foreachPartition三者之间的区别

2021-05-28 08:24:32 68

原创 Spark Streaming读写 kafka

大数据开发-Spark-开发Streaming处理数据 && 写入KafkaSpark Streaming+Kafka spark 写入 kafka

2021-05-27 22:45:06 1096 1

原创 kafka精确一次消费实现(幂等)

精确一次消费实现从kafka的消费机制,我们可以得到是否能够精确的消费关键在消费进度信息的准确性,如果能够保证消费进度的准确性,也就保证了消费数据的准确性要求消费处理逻辑支持事务,消费处理逻辑+罗盘数据+提交offet 放在一个事务中消息的分区号和offset作为消息的唯一id存储数据容器具备幂等性:在数据存入的容器具备天然的幂等(比如ElasticSearch的put操作具备幂等性,相同的数据多次执行Put操作和一次执行Put操作的结果是一致的),这样的场景也可以使用手动提交的最少一次消

2021-05-27 22:41:37 596

转载 sparkstreaming本地模式最小cpu核数不能小于2

去看官方文档发现了这个严重的问题,sparkstreaming不能少于2个线程,至少要一个接收一个处理:sparkstreaming线程数小于2时出错!

2021-05-27 19:07:56 261

转载 SparkStreaming之foreachRDD

SparkStreaming之foreachRDD

2021-05-27 16:24:56 149

转载 Spark之SparkStreaming案例-transform

Spark之SparkStreaming案例-transform

2021-05-27 16:24:04 89

原创 Spark性能调优

Spark性能调优:合理设置并行度

2021-05-27 16:15:58 81

转载 批次、窗口,调优- Batch Duration优化,多线程并行处理任务 代码实现方式scala

Streaming核心原理--批次、窗口,调优- Batch Duration优化,多线程并行处理任务

2021-05-27 15:59:46 148

原创 SparkStreaming+kafka参数设置

spark.streaming.kafka.maxRatePerPartition sparkStreaming 每个分区每秒可以拉去的最大消息数SparkStreaming+kafka参数设置

2021-05-27 15:57:32 802

转载 Spark性能优化:资源调优篇

Spark性能优化:资源调优篇

2021-05-27 09:55:05 90

转载 RDD 重新分区,排序 repartitionAndSortWithinPartitions

需求:将rdd数据中相同班级的学生分到一个partition中,并根据分数降序排序。此实例用到的repartitionAndSortWithinPartitions是Spark官网推荐的一个算子,官方建议,如果需要在repartition重分区之后,还要进行排序及repartition和sortBy,**建议直接使用repartitionAndSortWithinPartitions算子,替换repartition和sortBy**。因为该算子可以一边进行重分区的shuffle操作,一边进行排序。shu

2021-05-26 10:15:07 533

转载 spark.default.parallelism提高效率

spark通过合理设置spark.default.parallelism参数提高执行效率

2021-05-26 10:07:24 333

原创 partition task executor关系

Spark:partition、task、executor关系Spark中Task,Partition,RDD、节点数、Executor数、core数目的关系和Application,Driver,Job,Task,Stage理解

2021-05-26 09:44:43 163

转载 SparkStreaming+Kafka 优化

Spark踩坑记——Spark Streaming+Kafka

2021-05-25 08:05:35 218

原创 OLAP和OLTP的区别及代表产品

1.OLTP(传统数据库)数据库:是OLTP(On-Line Transaction Processing)(联机事务处理)应用的场景,其存储的主要是与业务直接相关的数据,强调准确、低时延、高并发,如果没有特别强调,基本上数据库里只会去存储与业务相关的数据。代表产品:Oracle、MySQLOLTP系统强调数据库内存效率,强调内存各种指标的命令率,强调绑定变量,强调并发操作,强调事务性;2.OLAP(数据仓库)数据仓库:OLAP(On-Line Analytical Processing)(联机分

2021-05-24 11:09:41 3073

原创 基于docker 搭建Prometheus+Grafana

基于docker 搭建Prometheus+Grafanak8s安装Prometheus+Grafana

2021-05-24 10:56:22 86

原创 Flink实现异步IO实战 java

Asycn IO应用于DataStreamAsyncDataStream是一个工具类,用于将AsyncFunction应用于DataStream,AsyncFunction发出的并发请求都是无序的,该顺序基于哪个请求先完成,为了控制结果记录的发出顺序,flink提供了两种模式,分别对应AsyncDataStream的两个静态方法,OrderedWait和unorderedWaitAsyncDataStream.orderedWait();AsyncDataStream.unorderWait();o

2021-05-19 11:09:41 691 1

转载 java Future和CompletableFuture的用法和区别

Future和CompletableFuture的用法和区别CompletableFuture 使用详解

2021-05-19 10:42:59 461

原创 zookeeper watch

zookeeper基本操作import java.io.IOException;import org.apache.zookeeper.CreateMode;import org.apache.zookeeper.KeeperException;import org.apache.zookeeper.WatchedEvent;import org.apache.zookeeper.Watcher;import org.apache.zookeeper.ZooDefs.Ids;import o

2021-05-17 15:58:27 115

转载 ProcessFunction介绍及KeyedProcessFunction实例

Flink1.10进阶:ProcessFunction介绍及KeyedProcessFunction实例ProcessFunction 可以被认为是一种提供了对 KeyedState 和定时器访问的 FlatMapFunction。每在输入流中接收到一个事件,就会调用来此函数来处理。对于容错的状态,ProcessFunction 可以通过 RuntimeContext 访问 KeyedState,类似于其他有状态函数访问 KeyedState。Timers 定时器可以对处理时间和事件时间的变化做一些处理

2021-05-14 16:50:54 665

原创 flink1.10.1--java 版--尚硅谷-第十章 Table API 与 SQL

第十章 Table API 与 SQLDataStream、Table API 与 SQL可以做的事情是相同的,只是具体实现的方式不一样。简单示例:flink 1.11及新得版本默认使用-blink,1.11只前的老版本默认使用planner实现table 和sql <groupId>org.apache.flink</groupId> <artifactId>flink-table-planner_2.12<

2021-05-13 21:16:56 317 1

原创 flink1.10.1--java 版--尚硅谷-第六章 Flink Window+wartermark+状态+容错

第六章 Flink 中的 Window6.1 Window6.1.1 Window 概述桶的概念,不是批处理6.1.2 Window 类型时间窗口的设置是左闭右开[ ),及包含开时间进入窗口的数据不包含结束时间进入窗口的数据1. 滚动窗口(Tumbling Windows)2. 滑动窗口(Sliding Windows)3. 会话窗口(Session Windows)6.2 Window API6.2.1 TimeWindow DataStream&l

2021-05-12 14:25:48 257

原创 flink1.10.1--java 版--尚硅谷-第四章 Flink 运行架构+API

第四章 Flink 运行架构4.1 Flink 运行时的组件作业管理器(JobManager)任务管理器(TaskManager)资源管理器(ResourceManager)分发器(Dispatcher)4.2 任务提交流程任务提交流程(YARN: per-job模式)4.3 任务调度原理4.3.1 TaskManger 与 Slots推荐使用当前机器cpu 核数来设置TaskManager对用的TaskSlot数4.3.2 程序与数据流(Dat

2021-05-09 18:01:49 475

原创 flink1.10.1--java 版--尚硅谷1-3简介/入门/安装/提交任务

传统数据处理架构事务处理:java 后端->数据库分析处理:离线数仓有状态的流式处理:实时处理流处理的演变:第二代流失处理架构(lambda)Flink 的主要特点Flink vs Spark Streaming

2021-05-07 21:18:03 393 1

转载 maven - 配置指定1.8jdk

maven - 配置指定1.8jdk

2021-05-07 20:45:15 907

原创 hadoop 安装部署-HDFS/YARN/MR

1.HDFS安装1.配置hdfs的NameNode(core-site.xml)vi etc/hadoop/core-site.xml<configuration><property><name>fs.defaultFS</name> <value>hdfs://kafka1:9000</value><description>配置NameNode的URL</description><

2021-05-07 16:48:39 266

原创 Hbase Java编程

6. Hbase Java编程6.1 需求与数据集某某自来水公司,需要存储大量的缴费明细数据。以下截取了缴费明细的一部分内容。!在这里插入图片描述因为缴费明细的数据记录非常庞大,该公司的信息部门决定使用HBase来存储这些数据。并且,他们希望能够通过Java程序来访问这些数据。6.2 准备工作6.2.1 创建IDEA Maven项目groupId cn.itcastartifactId hbase_op6.2.2 导入pom依赖 <repositories><!-

2021-05-06 20:30:56 1051

原创 Flink程序优化--黑马

Flink程序优化使用Flink Checkpoint进行容错处理checkpoint是Flink容错的核心机制。它可以定期地将各个Operator处理的数据进行快照存储( Snapshot )。如果Flink程序出现宕机,可以重新从这些快照中恢复数据。checkpoint coordinator(协调器)线程周期生成 barrier (栅栏),发送给每一个sourcesource将当前的状态进行snapshot(可以保存到HDFS)source向coordinator确认snapshot已经

2021-05-05 15:52:54 680

原创 HBase整合Phoenix --黑马

Phoenix什么是PhoenixPhoenix是一个基于HBase的开源SQL引擎,可以使用标准的JDBC API代替HBase客户端API来创建表,插入数据,查询你的HBase数据Phoenix完全使用Java编写,作为HBase内嵌的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBase扫描,并编排执行以生成标准的JDBC结果集。直接使用HBase API、协同处理器与自定义过滤器,对于简单查询来说,其性能量级是毫秒,对于百万级别的行数来说,其性能量级是秒Phoenix

2021-05-05 15:49:37 753

原创 IDEA 导入模块

2021-05-05 15:41:28 420

原创 flink异步IO --黑马

异步IO实现拉宽操作Async I/O 是阿里巴巴贡献给社区的一个呼声非常高的特性,于1.2版本引入。主要目的是为了解决与外部系统交互时网络延迟成为了系统瓶颈的问题。异步IO操作的需求Flink在做流数据计算时,很多时候需要与外部系统进行交互(比如数据库、Redis、Hive、HBase等等存储系统)。 往往需要注意系统间通信延迟是否会拖慢整个Flink作业,影响整体吞吐量和实时性。场景:流计算系统中经常需要于外部系统进行交互,比如需要查询外部数据库以关联上用户的额外信息,通常,我们的实现方式是

2021-05-05 14:53:35 291

原创 scala中样例类和apply方法的使用

scala中apply方法的使用:1.在scala中经常可以看见var list = List(1,2,3)的这种用法即用类名来调用对象2.实际上它是调用了scala的伴生对象的apply方法返回了一个对象来实现的3.apply也支持方法的重载apply方法通常称为注入方法,在伴生对象中做一些初始化操作apply方法的参数列表不需要和构造器的参数列表统一unapply方法通常称为提取方法,使用unapply方法提取固定数量的参数来进行模式匹配unapply方法会返回一个序列(Option),

2021-05-05 13:25:53 496

原创 scala样例类与普通类区别

/** * 创建订单的样例类 */case class OrderDBEntity( @BeanProperty orderId:Long, //订单id @BeanProperty orderNo:String, //订单编号 @BeanProperty userId:Long) //用户id/** * 创建订单的伴生对象 */

2021-05-05 13:12:24 703

原创 日志解析--Logparsing

Apache HTTPD和NGINX访问日志解析器这是一个Logparsing框架,旨在简化Apache HTTPD和NGINX访问日志文件的解析。基本思想是,您应该能够拥有一个解析器,可以通过简单地告诉该行写入了哪些配置选项来构造该解析器。这些配置选项是访问日志行的架构。github地址:https://github.com/nielsbasjes/logparser需要IDEA先安装Lombok插件导入依赖<dependency> <groupId>nl.ba

2021-05-04 19:09:41 521

转载 scala中 object 和 class的区别

scala中 object 和 class的区别

2021-05-04 13:30:00 680

转载 kafka 连接工具Kafka Tool 2.0.7

Kafka Tool 2.0.7(最新)版本超详细使用指北

2021-05-04 11:04:14 2094

原创 离线--千亿级数仓项目-黑马

大数据数仓项目简介业务流程本次数仓业务流程主要分为两类,一类是用户下单、提交订单、支付、退款这一条线,另一类是我们收集用户的页面行为数据:用户搜索商品、添加购物车 、提交订单、支付订单 的日志数据,分析电商网站常见的PV,UV,GMV,GMV (Gross Merchandise Volume):主要是指网站的成交金额,而这里的成交金额包括:付款金额和未付款。千亿级数仓模仿阿里巴巴双十一的大屏显示功能实现的互联网电商指标的离线分析,同时也模仿了阿里巴巴大数据平台上面数据仓库的设计思想和理念。

2021-05-04 09:25:48 958

原创 Canal-数据库同步工具-黑马

canal和sqoop的区别:Sqoop: 同步全量数据:能够实现对关系型数据的全量同步,但在很多业务场景下,由于数据量非常非常大,每天全量同步,对于Hadoop的压力较大,因此要慎用。Canal: 只同步更新的数据:实现基于CDC的数据同步方案,也就是捕获数据源中更新的数据,从而获得增量数据的更新。Canal介绍简介基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费早期阿里巴巴因为杭州和美国双机房部署,存在跨机房同步的业务需求,实现方式主要是基于业务 trigger(触发器

2021-05-03 19:15:12 1171

rocketmq.zip

SpringBoot整合rocketmq,实现rocketmq利用SpringBoot项目进项行数据的发送和接收。

2020-04-09

按钮CButton,代码创建,设置按钮图标,改变按钮颜色,实时改变按钮外观.rar

按钮CButton,代码创建,设置按钮图标,改变按钮颜色,实时改变按钮外观,22MFC控件之纯代码创建CButton,23MFC类向导(class wizard)工具,24MFC控件之带图标的按钮,025MFC控件之美化按钮-改变按钮颜色,026MFC控件之美化按钮高级篇-实时改变按钮外观

2019-10-21

MFC控件之编辑框CEdit

028MFC控件之编辑框CEdit,MFC的编辑框及平时用的输入框,可以往里面输入文本或数字,编辑框对应的MFC类为CEdit,CEdit提供了窗口编辑框的功能

2019-10-21

027MFC控件之静态文本CStatic.rar

MFC控件之静态文本CStatic,使用visual studio2017,纯代码创建静态文本背景颜色,文本内容的改变的小例子。

2019-10-21

距离多普勒成像算法分析

距离多普勒(Range-Doppler,RD)算法是SAR成像处理中最直观,最基本的经典方法,目前在许多模式的SAR,尤其是正侧视SAR的成像处理中仍然广为使用,它可以理解为时域相关算法的演变。

2019-02-28

officedoc,matlab的office工具箱官网原版

officedoc,matlab操作office文件的工具箱 ,来自mathwork官网

2019-02-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除