玩转曼哈顿-CSDN博客

原创 flink多并行数据源下的waterMark触发机制

1、数据0001,15383598900000001,15383598910000001,15383598920000001,15383598930000001,15383598940000001,15383598950000001,15383598960000001,15383598970000001,15383598980000001,15383598990000001,15383599000000001,15383599010000001,15383599020000001

2021-01-22 19:57:00 592

转载 Spark 2.x 中 Sort-Based Shuffle 产生的内幕

本课主题Sorted-Based Shuffle的诞生和介绍Shuffle 中六大令人费解的问题Sorted-Based Shuffle 的排序和源码鉴赏Shuffle 在运行时的内存管理引言在历史的发展中，为什么 Spark 最终还是选择放弃了 HashShuffle 而使用了 Sorted-Based Shuffle，而且作为后起之秀的 Tungsten-based Shuffle 它到底在什么样的背景下产生的。Tungsten-Sort Shuffle已经并入了 Sor...

2020-07-17 22:18:05 475

原创 linux中关于网卡的基本知识总结

一、网卡概述Linux 操作系统的网卡设备的传统命名方式是 eth0、eth1、eth2等，而 CentOS7 提供了不同的命名规则，默认是基于固件、拓扑、位置信息来分配。这样做的优点是命名全自动的、可预知的，缺点是比 eth0、wlan0 更难读，比如 ens33 。二、Eth0和ens的区别eno1:代表由主办bios内置的网卡 Ens：代表有主板bios内置的PCI-E网卡 Enp2s0:PCI-E独立网卡 Eth0：如果以上都不使用回到默认的网卡名三、命名规则策略规则1：

2020-07-12 23:04:53 10161

原创关于centos7中没有网卡的问题

我直接在图片的网络中关闭了网卡导致network 启动不了用ifconfig 查询不到IP地址解决办法1、查看networkmanager 状态Systemctl status NetworkManager 是actice状态2、然后关掉networkmanagerSystemctl stop NetworkManager3、在禁用 systemctl disable NetworkManager4、然后重新启动网卡Systemctl start ...

2020-07-12 22:52:13 2394

原创 junit关于Test class can only have one constructor的报错

import org.junit.Test;import java.util.ArrayList;import java.util.Scanner;public class QQ_user { static public ArrayList<QQ_user> list = new ArrayList<>(); //封装已做好的用户信息存储到集合在中剧本应序 static { //类加载代码块适用初始化加载<_>在.

2020-07-12 22:39:16 3705

原创关于数据中台的理解

数据中台是什么？数据中台不是大数据平台！首先它不是一个平台，也不是一个系统，如果有厂商说他们有个数据中台卖给你，对不起，它是个骗子。要回答数据中台是什么，首先要探讨一下中台到底是什么。虽然没有明确的定义，但是作为理工直男，我们可以先把中台看作是一种中间层。既然是一种中间层，那么中台确实是一种十足技术用语，我们可以完全从技术角度来探讨了。在数据开发中，核心数据模型的变化是相对缓慢的，同时，对数据进行维护的工作量也非常大；但业务创新的速度、对数据提出的需求的变化，是非常快速的。数据中台的出现

2020-05-19 17:10:59 1505

转载数据仓库以及数据建模浅显理解

所谓水无定势，兵无常法。不同的行业，有不同行业的特点，因此，从业务角度看，其相应的数据模型是千差万别的。目前业界较为主流的是数据仓库厂商主要是 IBM 和 NCR，这两家公司的除了能够提供较为强大的数据仓库平台之外，也有各自的针对某个行业的数据模型。例如，在银行业，IBM 有自己的 BDWM(Banking data warehouse model)，而 NCR 有自己的 FS-LDM 模型。在电信业，IBM 有 TDWM（Telecom Data warehouse model），而 NCR 有自己的

2020-05-19 16:43:53 1109 1

原创亚马逊AWS免费EC2服务器搭建总结

1、注册如果你没有aws的账号需要注册注册地址https://aws.amazon.com/cn/ 因为我已经注册成功，如果还没有注册的可以参照这个帖子非常详细 https://www.itbulu.com/free-aws.html2、登陆默认是8GB空间，我们可以扩展到30GB...

2019-03-20 10:51:02 20599 2

原创 spark中分区规则

1.textFile读取文件时，与线程数没有关系例如： TEXTFILE模式下如果文件没有给定分区则是按照文件数进行分区，这种情况是所有文件相同大的情况下如果指定分区数textFile（path，3）则是三个分区，在文件不一样大的情况下，分区数则会增加，例如：3个文件分别为9K，12K，760K加起来是781k，除以3等于260,9 / 260 <1.1（1个分...

2018-12-14 10:56:51 966

原创 spark知识点总结（1）

1.RDD弹性分布式数据集：是抽象出来的概念，元素的集合。是一批节点上一批数据的集合。分布式：每个rdd会把数据分成多个parttioner放在多个节点上。eg:90万条数据放在9个节点上面，每个节点9万条数据。弹性：eg：每个节点上面个的内存中只能存放5万条数据，那么他会把剩下的4万条存放在磁盘当中。RDD提供个高容错性的机制，当一个RDD上面的数据发生丢失，他会自动的从上一个...

2018-11-01 17:30:08 566

原创 spark调优总结

1.sparkseaming 从图上可以看到，Batch Interval的间隔是5s，也就是说每经过5s，SparkStreaming会将这5s内的信息封装成一个DStream,然后提交到Spark集群进行计算 1.1执行流程第一个 DStream 里面是 0-5s 的数据，在第6s的时候会触发 DStream 的job执行，这时会另启动一个线程执行这...

2018-11-01 17:20:44 3302

06-Kafka线上集群部署方案怎么.pdf

我分别从Kafka的定位、版本的变迁以及功能的演进等几个方面循序渐进地梳理了 Apache Kafka的发展脉络。通过这些内容，我希望你能清晰地了解Kafka是用来做什么的，以及在实际生产环境中该如何选择Kafka版本，更快地帮助你入门Kafka。现在我们就来看看在生产环境中的Kafka集群方案该怎么做。既然是集群，那必然就要有多个Kafka节点机器，因为只有单台机器构成的Kafka伪集群只能用于日常测试之用，根本无法满足实际的线上生产需求。而真正的线上环境需要仔细地考量各种因素，结合自身的业务需求而制定。下面我就分别从操作系统、磁盘、磁盘容量和带宽等方面来讨论一下。

2020-05-19

14-幂等生产者和事务生产者是一回事吗.pdf

在Kafka中，Producer默认不是幂等性的，但我们可以创建幂等性Producer。它其实是0.11.0.0版本引入的新功能。在此之前，Kafka向分区发送数据时，可能会出现同一条消息被发送了多次，导致消息重复的情况。在0.11之后，指定Producer幂等性的方法很简单，仅需要设置一个参数即可，即 props.put(“enable.idempotence”, ture)，或 props.put(ProducerConfig.ENABLE_IDEMPOTENCE_CONFIG， true)。

2020-05-19

clickhouse_zh.pdf

ClickHouse 架构概述 ClickHouse 是一个真正的列式数据库管理系统（DBMS)。在 ClickHouse 中，数据始终是按列存储的，包括矢量（向量或列块）执行的过程。只要有可能，操作都是基于矢量进行分派的，而不是单个的值，这被称为«矢量化查询执行»，它有利于降低实际的数据处理开销。这个想法并不新鲜，其可以追溯到 APL 编程语言及其后代：A +、J、K 和 Q。矢量编程被大量用于科学数据处理中。即使在关系型数据库中，这个想法也不是什么新的东西：比如，矢量编程也被大量用于 Vectorwise 系统中。通常有两种不同的加速查询处理的方法：矢量化查询执行和运行时代码生成。在后者中，动态地为每一类查询生成代码，消除了间接分派和动态分派。这两种方法中，并没有哪一种严格地比另一种好。运行时代码生成可以更好地将多个操作融合在一起，从而充分利用 CPU 执行单元和流水线。矢量化查询执行不是特别实用，因为它涉及必须写到缓存并读回的临时向量。如果 L2 缓存容纳不下临时数据，那么这将成为一个问题。但矢量化查询执行更容易利用 CPU 的 SIMD 功能。朋友写的一篇研究论文表明，将两种方法结合起来是更好的选择。ClickHouse 使用了矢量化查询执行，同时初步提供了有限的运行时动态代码生成。

2020-05-19

flink多并行数据源下的waterMark触发机制1.pdf

flink

2021-01-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人