2021年05月_紫金小飞侠

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Spark性能调优实战(基础知识)-极客时间-吴磊

课程连接：https://time.geekbang.org/column/intro/4001.spark调优整体方法论性能调优的目的性能调优的最终目的，是在所有参与计算的硬件资源之间寻求协同与平衡，让硬件资源达到一种平衡、无瓶颈的状态。不能一直这么无限循环下去。执行性能最好（运行时间最短）任务并不是那些把 CPU 利用率压榨到 100%，以及把内存设置到最大的配置组合，而是那些硬件资源配置最均衡的计算任务。调优的主要套路以性能为导向的开发习惯，开发者可以按图索骥地去开展性能调优工作，做到

2021-05-31 11:29:33 6032

转载 Spark中foreachPartition和mapPartitions的区别

Spark-core 中foreachPartition和mapPartitions的区别foreachPartition应该属于action运算操作，而mapPartitions是在Transformation中，所以是转化操作，此外在应用场景上区别是mapPartitions可以获取返回值，继续在返回RDD上做其他的操作，而foreachPartition因为没有返回值并且是action操作，所以使用它一般都是在程序末尾比如说要落地数据到存储系统中如mysql，es，或者hbase中，可以用

2021-05-28 10:08:17 484

转载 SparkStreaming中的foreachRDD、spark-core中foreach、spark-core中foreachPartition三者之间的区别

SparkStreaming中的foreachRDD、spark-core中foreach、spark-core中foreachPartition三者之间的区别

2021-05-28 08:24:32 68

原创 Spark Streaming读写 kafka

大数据开发-Spark-开发Streaming处理数据 && 写入KafkaSpark Streaming+Kafka spark 写入 kafka

2021-05-27 22:45:06 1096 1

原创 kafka精确一次消费实现（幂等）

精确一次消费实现从kafka的消费机制，我们可以得到是否能够精确的消费关键在消费进度信息的准确性，如果能够保证消费进度的准确性，也就保证了消费数据的准确性要求消费处理逻辑支持事务，消费处理逻辑+罗盘数据+提交offet 放在一个事务中消息的分区号和offset作为消息的唯一id存储数据容器具备幂等性：在数据存入的容器具备天然的幂等（比如ElasticSearch的put操作具备幂等性，相同的数据多次执行Put操作和一次执行Put操作的结果是一致的），这样的场景也可以使用手动提交的最少一次消

2021-05-27 22:41:37 596

转载 sparkstreaming本地模式最小cpu核数不能小于2

去看官方文档发现了这个严重的问题，sparkstreaming不能少于2个线程，至少要一个接收一个处理:sparkstreaming线程数小于2时出错！

2021-05-27 19:07:56 261

转载 SparkStreaming之foreachRDD

SparkStreaming之foreachRDD

2021-05-27 16:24:56 149

转载 Spark之SparkStreaming案例-transform

Spark之SparkStreaming案例-transform

2021-05-27 16:24:04 89

原创 Spark性能调优

Spark性能调优：合理设置并行度

2021-05-27 16:15:58 81

转载批次、窗口，调优- Batch Duration优化，多线程并行处理任务代码实现方式scala

Streaming核心原理--批次、窗口，调优- Batch Duration优化，多线程并行处理任务

2021-05-27 15:59:46 148

原创 SparkStreaming+kafka参数设置

spark.streaming.kafka.maxRatePerPartition sparkStreaming 每个分区每秒可以拉去的最大消息数SparkStreaming+kafka参数设置

2021-05-27 15:57:32 802

转载 Spark性能优化：资源调优篇

Spark性能优化：资源调优篇

2021-05-27 09:55:05 90

转载 RDD 重新分区，排序 repartitionAndSortWithinPartitions

需求：将rdd数据中相同班级的学生分到一个partition中，并根据分数降序排序。此实例用到的repartitionAndSortWithinPartitions是Spark官网推荐的一个算子，官方建议，如果需要在repartition重分区之后，还要进行排序及repartition和sortBy，**建议直接使用repartitionAndSortWithinPartitions算子，替换repartition和sortBy**。因为该算子可以一边进行重分区的shuffle操作，一边进行排序。shu

2021-05-26 10:15:07 533

转载 spark.default.parallelism提高效率

spark通过合理设置spark.default.parallelism参数提高执行效率

2021-05-26 10:07:24 333

原创 partition task executor关系

Spark：partition、task、executor关系Spark中Task，Partition，RDD、节点数、Executor数、core数目的关系和Application，Driver，Job，Task，Stage理解

2021-05-26 09:44:43 163

转载 SparkStreaming+Kafka 优化

Spark踩坑记——Spark Streaming+Kafka

2021-05-25 08:05:35 218

原创 OLAP和OLTP的区别及代表产品

1.OLTP(传统数据库）数据库：是OLTP（On-Line Transaction Processing）（联机事务处理）应用的场景，其存储的主要是与业务直接相关的数据，强调准确、低时延、高并发，如果没有特别强调，基本上数据库里只会去存储与业务相关的数据。代表产品：Oracle、MySQLOLTP系统强调数据库内存效率，强调内存各种指标的命令率，强调绑定变量，强调并发操作，强调事务性；2.OLAP(数据仓库)数据仓库：OLAP（On-Line Analytical Processing）（联机分

2021-05-24 11:09:41 3073

原创基于docker 搭建Prometheus+Grafana

基于docker 搭建Prometheus+Grafanak8s安装Prometheus+Grafana

2021-05-24 10:56:22 86

原创 Flink实现异步IO实战 java

Asycn IO应用于DataStreamAsyncDataStream是一个工具类，用于将AsyncFunction应用于DataStream，AsyncFunction发出的并发请求都是无序的，该顺序基于哪个请求先完成，为了控制结果记录的发出顺序，flink提供了两种模式，分别对应AsyncDataStream的两个静态方法，OrderedWait和unorderedWaitAsyncDataStream.orderedWait();AsyncDataStream.unorderWait();o

2021-05-19 11:09:41 691 1

转载 java Future和CompletableFuture的用法和区别

Future和CompletableFuture的用法和区别CompletableFuture 使用详解

2021-05-19 10:42:59 461

原创 zookeeper watch

zookeeper基本操作import java.io.IOException;import org.apache.zookeeper.CreateMode;import org.apache.zookeeper.KeeperException;import org.apache.zookeeper.WatchedEvent;import org.apache.zookeeper.Watcher;import org.apache.zookeeper.ZooDefs.Ids;import o

2021-05-17 15:58:27 115

转载 ProcessFunction介绍及KeyedProcessFunction实例

Flink1.10进阶：ProcessFunction介绍及KeyedProcessFunction实例ProcessFunction 可以被认为是一种提供了对 KeyedState 和定时器访问的 FlatMapFunction。每在输入流中接收到一个事件，就会调用来此函数来处理。对于容错的状态，ProcessFunction 可以通过 RuntimeContext 访问 KeyedState，类似于其他有状态函数访问 KeyedState。Timers 定时器可以对处理时间和事件时间的变化做一些处理

2021-05-14 16:50:54 665

原创 flink1.10.1--java 版--尚硅谷-第十章 Table API 与 SQL

第十章 Table API 与 SQLDataStream、Table API 与 SQL可以做的事情是相同的，只是具体实现的方式不一样。简单示例：flink 1.11及新得版本默认使用-blink，1.11只前的老版本默认使用planner实现table 和sql <groupId>org.apache.flink</groupId> <artifactId>flink-table-planner_2.12<

2021-05-13 21:16:56 317 1

原创 flink1.10.1--java 版--尚硅谷-第六章 Flink Window+wartermark+状态+容错

第六章 Flink 中的 Window6.1 Window6.1.1 Window 概述桶的概念，不是批处理6.1.2 Window 类型时间窗口的设置是左闭右开[ ），及包含开时间进入窗口的数据不包含结束时间进入窗口的数据1. 滚动窗口（Tumbling Windows）2. 滑动窗口（Sliding Windows）3. 会话窗口（Session Windows）6.2 Window API6.2.1 TimeWindow DataStream&l

2021-05-12 14:25:48 257

原创 flink1.10.1--java 版--尚硅谷-第四章 Flink 运行架构+API

第四章 Flink 运行架构4.1 Flink 运行时的组件作业管理器（JobManager）任务管理器（TaskManager）资源管理器（ResourceManager）分发器（Dispatcher）4.2 任务提交流程任务提交流程（YARN: per-job模式）4.3 任务调度原理4.3.1 TaskManger 与 Slots推荐使用当前机器cpu 核数来设置TaskManager对用的TaskSlot数4.3.2 程序与数据流（Dat

2021-05-09 18:01:49 475

原创 flink1.10.1--java 版--尚硅谷1-3简介/入门/安装/提交任务

传统数据处理架构事务处理：java 后端->数据库分析处理：离线数仓有状态的流式处理：实时处理流处理的演变：第二代流失处理架构(lambda)Flink 的主要特点Flink vs Spark Streaming

2021-05-07 21:18:03 393 1

转载 maven - 配置指定1.8jdk

maven - 配置指定1.8jdk

2021-05-07 20:45:15 907

原创 hadoop 安装部署-HDFS/YARN/MR

1.HDFS安装1.配置hdfs的NameNode（core-site.xml)vi etc/hadoop/core-site.xml<configuration><property><name>fs.defaultFS</name> <value>hdfs://kafka1:9000</value><description>配置NameNode的URL</description><

2021-05-07 16:48:39 266

原创 Hbase Java编程

6. Hbase Java编程6.1 需求与数据集某某自来水公司，需要存储大量的缴费明细数据。以下截取了缴费明细的一部分内容。!在这里插入图片描述因为缴费明细的数据记录非常庞大，该公司的信息部门决定使用HBase来存储这些数据。并且，他们希望能够通过Java程序来访问这些数据。6.2 准备工作6.2.1 创建IDEA Maven项目groupId cn.itcastartifactId hbase_op6.2.2 导入pom依赖 <repositories><!-

2021-05-06 20:30:56 1051

原创 Flink程序优化--黑马

Flink程序优化使用Flink Checkpoint进行容错处理checkpoint是Flink容错的核心机制。它可以定期地将各个Operator处理的数据进行快照存储（ Snapshot ）。如果Flink程序出现宕机，可以重新从这些快照中恢复数据。checkpoint coordinator（协调器）线程周期生成 barrier （栅栏），发送给每一个sourcesource将当前的状态进行snapshot（可以保存到HDFS）source向coordinator确认snapshot已经

2021-05-05 15:52:54 680

原创 HBase整合Phoenix --黑马

Phoenix什么是PhoenixPhoenix是一个基于HBase的开源SQL引擎，可以使用标准的JDBC API代替HBase客户端API来创建表，插入数据，查询你的HBase数据Phoenix完全使用Java编写，作为HBase内嵌的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBase扫描，并编排执行以生成标准的JDBC结果集。直接使用HBase API、协同处理器与自定义过滤器，对于简单查询来说，其性能量级是毫秒，对于百万级别的行数来说，其性能量级是秒Phoenix

2021-05-05 15:49:37 753

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

rocketmq.zip

按钮CButton，代码创建，设置按钮图标，改变按钮颜色，实时改变按钮外观.rar

MFC控件之编辑框CEdit

027MFC控件之静态文本CStatic.rar

距离多普勒成像算法分析

officedoc，matlab的office工具箱官网原版

空空如也