- 博客(11)
- 资源 (4)
- 收藏
- 关注
原创 flink多并行数据源下的waterMark触发机制
1、数据0001,15383598900000001,15383598910000001,15383598920000001,15383598930000001,15383598940000001,15383598950000001,15383598960000001,15383598970000001,15383598980000001,15383598990000001,15383599000000001,15383599010000001,15383599020000001
2021-01-22 19:57:00 480
转载 Spark 2.x 中 Sort-Based Shuffle 产生的内幕
本课主题Sorted-Based Shuffle的诞生和介绍Shuffle 中六大令人费解的问题Sorted-Based Shuffle 的排序和源码鉴赏Shuffle 在运行时的内存管理引言在历史的发展中,为什么 Spark 最终还是选择放弃了 HashShuffle 而使用了 Sorted-Based Shuffle,而且作为后起之秀的 Tungsten-based Shuffle 它到底在什么样的背景下产生的。Tungsten-Sort Shuffle已经并入了 Sor...
2020-07-17 22:18:05 331
原创 linux中关于网卡的基本知识总结
一、网卡概述Linux 操作系统的网卡设备的传统命名方式是 eth0、eth1、eth2等,而 CentOS7 提供了不同的命名规则,默认是基于固件、拓扑、位置信息来分配。这样做的优点是命名全自动的、可预知的,缺点是比 eth0、wlan0 更难读,比如 ens33 。二、Eth0和ens的区别eno1:代表由主办bios内置的网卡 Ens:代表有主板bios内置的PCI-E网卡 Enp2s0:PCI-E独立网卡 Eth0:如果以上都不使用回到默认的网卡名三、命名规则策略规则1:
2020-07-12 23:04:53 8880
原创 关于centos7中没有网卡的问题
我直接在图片的网络中关闭了网卡导致network 启动 不了用ifconfig 查询不到IP地址解决办法1、查看networkmanager 状态Systemctl status NetworkManager 是actice状态2、然后关掉networkmanagerSystemctl stop NetworkManager3、在禁用 systemctl disable NetworkManager4、然后重新启动网卡Systemctl start ...
2020-07-12 22:52:13 2225
原创 junit关于Test class can only have one constructor的报错
import org.junit.Test;import java.util.ArrayList;import java.util.Scanner;public class QQ_user { static public ArrayList<QQ_user> list = new ArrayList<>(); //封装已做好的用户信息 存储到集合在中 剧本应序 static { //类加载代码块 适用初始化加载<_>在.
2020-07-12 22:39:16 3551
原创 关于数据中台的理解
数据中台是什么?数据中台不是大数据平台!首先它不是一个平台,也不是一个系统,如果有厂商说他们有个数据中台卖给你,对不起,它是个骗子。要回答数据中台是什么,首先要探讨一下中台到底是什么。虽然没有明确的定义,但是作为理工直男,我们可以先把中台看作是一种中间层。既然是一种中间层,那么中台确实是一种十足技术用语,我们可以完全从技术角度来探讨了。在数据开发中,核心数据模型的变化是相对缓慢的,同时,对数据进行维护的工作量也非常大;但业务创新的速度、对数据提出的需求的变化,是非常快速的。数据中台的出现
2020-05-19 17:10:59 1351
转载 数据仓库以及数据建模浅显理解
所谓水无定势,兵无常法。不同的行业,有不同行业的特点,因此,从业务角度看,其相应的数据模型是千差万别的。目前业界较为主流的是数据仓库厂商主要是 IBM 和 NCR,这两家公司的除了能够提供较为强大的数据仓库平台之外,也有各自的针对某个行业的数据模型。例如,在银行业,IBM 有自己的 BDWM(Banking data warehouse model),而 NCR 有自己的 FS-LDM 模型。在电信业,IBM 有 TDWM(Telecom Data warehouse model),而 NCR 有自己的
2020-05-19 16:43:53 950 1
原创 亚马逊AWS免费EC2服务器搭建总结
1、注册 如果你没有aws的账号需要注册 注册地址https://aws.amazon.com/cn/ 因为我已经注册成功,如果还没有注册的可以参照这个帖子非常详细 https://www.itbulu.com/free-aws.html2、登陆默认是8GB空间,我们可以扩展到30GB...
2019-03-20 10:51:02 18283 2
原创 spark中分区规则
1.textFile读取文件时,与线程数没有关系例如: TEXTFILE模式下如果文件没有给定分区则是按照文件数进行分区,这种情况是所有文件相同大的情况下 如果指定分区数textFile(path,3)则是三个分区,在文件不一样大的情况下,分区数则会增加,例如:3个文件分别为9K,12K,760K加起来是781k,除以3等于260,9 / 260 <1.1(1个分...
2018-12-14 10:56:51 883
原创 spark知识点总结(1)
1.RDD弹性分布式数据集:是抽象出来的概念,元素的集合。是一批节点上一批数据的集合。分布式:每个rdd会把数据分成多个parttioner放在多个节点上。eg:90万条数据放在9个节点上面,每个 节点9万条数据。弹性:eg:每个节点上面个的内存中只能存放5万条数据,那么他会把剩下的4万条存放在磁盘当中。RDD提供个高容错性的机制,当一个RDD上面的数据发生丢失,他会自动的从上一个...
2018-11-01 17:30:08 465
原创 spark调优总结
1.sparkseaming 从图上可以看到,Batch Interval的间隔是5s,也就是说每经过5s,SparkStreaming会将这5s内的信息封装成一个DStream,然后提交到Spark集群进行计算 1.1执行流程 第一个 DStream 里面是 0-5s 的数据,在第6s的时候会触发 DStream 的job执行,这时会另启动一个线程执行这...
2018-11-01 17:20:44 3087
14-幂等生产者和事务生产者是一回事吗.pdf
2020-05-19
clickhouse_zh.pdf
2020-05-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人