自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (4)
  • 收藏
  • 关注

原创 flink多并行数据源下的waterMark触发机制

1、数据0001,15383598900000001,15383598910000001,15383598920000001,15383598930000001,15383598940000001,15383598950000001,15383598960000001,15383598970000001,15383598980000001,15383598990000001,15383599000000001,15383599010000001,15383599020000001

2021-01-22 19:57:00 480

转载 Spark 2.x 中 Sort-Based Shuffle 产生的内幕

本课主题Sorted-Based Shuffle的诞生和介绍Shuffle 中六大令人费解的问题Sorted-Based Shuffle 的排序和源码鉴赏Shuffle 在运行时的内存管理引言在历史的发展中,为什么 Spark 最终还是选择放弃了 HashShuffle 而使用了 Sorted-Based Shuffle,而且作为后起之秀的 Tungsten-based Shuffle 它到底在什么样的背景下产生的。Tungsten-Sort Shuffle已经并入了 Sor...

2020-07-17 22:18:05 331

原创 linux中关于网卡的基本知识总结

一、网卡概述Linux 操作系统的网卡设备的传统命名方式是 eth0、eth1、eth2等,而 CentOS7 提供了不同的命名规则,默认是基于固件、拓扑、位置信息来分配。这样做的优点是命名全自动的、可预知的,缺点是比 eth0、wlan0 更难读,比如 ens33 。二、Eth0和ens的区别eno1:代表由主办bios内置的网卡 Ens:代表有主板bios内置的PCI-E网卡 Enp2s0:PCI-E独立网卡 Eth0:如果以上都不使用回到默认的网卡名三、命名规则策略规则1:

2020-07-12 23:04:53 8880

原创 关于centos7中没有网卡的问题

我直接在图片的网络中关闭了网卡导致network 启动 不了用ifconfig 查询不到IP地址解决办法1、查看networkmanager 状态Systemctl status NetworkManager 是actice状态2、然后关掉networkmanagerSystemctl stop NetworkManager3、在禁用 systemctl disable NetworkManager4、然后重新启动网卡Systemctl start ...

2020-07-12 22:52:13 2225

原创 junit关于Test class can only have one constructor的报错

import org.junit.Test;import java.util.ArrayList;import java.util.Scanner;public class QQ_user { static public ArrayList<QQ_user> list = new ArrayList<>(); //封装已做好的用户信息 存储到集合在中 剧本应序 static { //类加载代码块 适用初始化加载<_>在.

2020-07-12 22:39:16 3551

原创 关于数据中台的理解

数据中台是什么?数据中台不是大数据平台!首先它不是一个平台,也不是一个系统,如果有厂商说他们有个数据中台卖给你,对不起,它是个骗子。要回答数据中台是什么,首先要探讨一下中台到底是什么。虽然没有明确的定义,但是作为理工直男,我们可以先把中台看作是一种中间层。既然是一种中间层,那么中台确实是一种十足技术用语,我们可以完全从技术角度来探讨了。在数据开发中,核心数据模型的变化是相对缓慢的,同时,对数据进行维护的工作量也非常大;但业务创新的速度、对数据提出的需求的变化,是非常快速的。数据中台的出现

2020-05-19 17:10:59 1351

转载 数据仓库以及数据建模浅显理解

所谓水无定势,兵无常法。不同的行业,有不同行业的特点,因此,从业务角度看,其相应的数据模型是千差万别的。目前业界较为主流的是数据仓库厂商主要是 IBM 和 NCR,这两家公司的除了能够提供较为强大的数据仓库平台之外,也有各自的针对某个行业的数据模型。例如,在银行业,IBM 有自己的 BDWM(Banking data warehouse model),而 NCR 有自己的 FS-LDM 模型。在电信业,IBM 有 TDWM(Telecom Data warehouse model),而 NCR 有自己的

2020-05-19 16:43:53 950 1

原创 亚马逊AWS免费EC2服务器搭建总结

1、注册 如果你没有aws的账号需要注册 注册地址https://aws.amazon.com/cn/ 因为我已经注册成功,如果还没有注册的可以参照这个帖子非常详细 https://www.itbulu.com/free-aws.html2、登陆默认是8GB空间,我们可以扩展到30GB...

2019-03-20 10:51:02 18283 2

原创 spark中分区规则

1.textFile读取文件时,与线程数没有关系例如: TEXTFILE模式下如果文件没有给定分区则是按照文件数进行分区,这种情况是所有文件相同大的情况下   如果指定分区数textFile(path,3)则是三个分区,在文件不一样大的情况下,分区数则会增加,例如:3个文件分别为9K,12K,760K加起来是781k,除以3等于260,9 / 260 &lt;1.1(1个分...

2018-12-14 10:56:51 883

原创 spark知识点总结(1)

1.RDD弹性分布式数据集:是抽象出来的概念,元素的集合。是一批节点上一批数据的集合。分布式:每个rdd会把数据分成多个parttioner放在多个节点上。eg:90万条数据放在9个节点上面,每个   节点9万条数据。弹性:eg:每个节点上面个的内存中只能存放5万条数据,那么他会把剩下的4万条存放在磁盘当中。RDD提供个高容错性的机制,当一个RDD上面的数据发生丢失,他会自动的从上一个...

2018-11-01 17:30:08 465

原创 spark调优总结

 1.sparkseaming  从图上可以看到,Batch Interval的间隔是5s,也就是说每经过5s,SparkStreaming会将这5s内的信息封装成一个DStream,然后提交到Spark集群进行计算 1.1执行流程    第一个 DStream 里面是 0-5s 的数据,在第6s的时候会触发 DStream 的job执行,这时会另启动一个线程执行这...

2018-11-01 17:20:44 3087

flink多并行数据源下的waterMark触发机制1.pdf

flink

2021-01-22

14-幂等生产者和事务生产者是一回事吗.pdf

在Kafka中,Producer默认不是幂等性的,但我们可以创建幂等性Producer。它其实是0.11.0.0版本引入的 新功能。在此之前,Kafka向分区发送数据时,可能会出现同一条消息被发送了多次,导致消息重复的情 况。在0.11之后,指定Producer幂等性的方法很简单,仅需要设置一个参数即可,即 props.put(“enable.idempotence”, ture),或 props.put(ProducerConfig.ENABLE_IDEMPOTENCE_CONFIG, true)。

2020-05-19

clickhouse_zh.pdf

ClickHouse 架构概述 ClickHouse 是一个真正的列式数据库管理系统(DBMS)。在 ClickHouse 中,数据始终是按列存储的,包括矢量(向量或列块)执行的过程。只要有可能,操作都是基于矢量进行分派的,而不是单个的值,这被称为«矢量化查询执行»,它有利于降低实际的数据处理开销。 这个想法并不新鲜,其可以追溯到 APL 编程语言及其后代:A +、J、K 和 Q。矢量编程被大量用于科学数据处理中。即使在关系型数据库中,这个想法也不是什么新的东西:比如,矢量编程也被大量用于 Vectorwise 系统中。 通常有两种不同的加速查询处理的方法:矢量化查询执行和运行时代码生成。在后者中,动态地为每一类查询生成代码,消除了间接分派和动态分派。这两种方法中,并没有哪一种严格地比另一种好。运行时代码生成可以更好地将多个操作融合在一起,从而充分利用 CPU 执行单元和流水线。矢量化查询执行不是特别实用,因为它涉及必须写到缓存并读回的临时向量。如果 L2 缓存容纳不下临时数据,那么这将成为一个问题。但矢量化查询执行更容易利用 CPU 的 SIMD 功能。朋友写的一篇研究论文表明,将两种方法结合起来是更好的选择。ClickHouse 使用了矢量化查询执行,同时初步提供了有限的运行时动态代码生成。

2020-05-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除