自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 OSI 七层模型

分出层次的目的是运用层次模型可以把开放系统的信息交换问题拆分到多方面易于调整的硬件软件模块层中,而各层可以依照需求单独展开改动或增加功效,与此同时,有助于各个生产厂家的机器设备相互连接,也有助于各位学习、正确理解数据通信网络。在物理层带来比特流服务的前提上,创建邻近结点间的数据链路,根据差错控制带来数据帧(Frame)在信道上无差错的传送,并展开各电路上的行为系列。要求通讯设备的机械的、电气的、功效的和流程的特点,用于创建、维护和拆卸物理链路连接。1、同一层中的各节点都是有相同的层次模型,具备相同的功效。

2024-01-16 15:26:54 835 1

原创 大数据存储架构学习摘要:数据仓库、数据集市、数据湖、数据网格、湖仓一体

1、数据库(Database)是一个存储相关数据的地方,用于捕获特定情况的数据。它可以是结构化、关系型、非结构化或NoSQL数据库。数据库主要用于在线事务处理(OLTP),处理实时的事务数据,并具有特定的目的和应用。2、数据仓库(Data Warehouse)是组织的核心分析系统,用于存储历史数据和支持数据分析。数据仓库与操作数据存储(Operational Data Store,ODS)一起工作,将各种数据库中的数据捕获并统一存储在一个位置。

2023-12-14 15:54:42 1662 1

原创 Datax学习整理

DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。Datax将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据的Writer插件,理论上DataX框架可以支持任意数据源类型的数据同步工作。

2023-12-08 14:39:24 1020

原创 spark_shuffle相关参数整理

当ShuffleManager为SortShuffleManager时,如果shuffle read task的数量小于这个阈值(默认是200),则shuffle write过程中不会进行排序操作,而是直接按照未经优化的HashShuffleManager的方式去写数据,但是最后会将每个task产生的所有临时磁盘文件都合并成一个文件,并会创建单独的索引文件。:如果作业可用的内存资源较为充足的话,可以适当增加这个参数的大小(比如96m),从而减少拉取数据的次数,也就可以减少网络传输的次数,进而提升性能。

2023-12-07 11:11:36 901

原创 Spring Boot 学习笔记:MyBatis

通过MyBatis数据访问。

2023-12-06 18:35:50 323 1

原创 Hive优化

1、日常Hive开发中时刻养成提前数据收敛的习惯,避免无用数据参与到计算中;2、不要过度进行优化,有可能做的是无用功甚至产生负效应,在调优上投入的工作成本和回报不成正比;3、对于公共可复用的逻辑代码,可以抽取出来落地临时表或者中间表,提升复用性,强调复用!4、理解HiveQL底层执行的原理,优化起来才有章可循;5、理透需求是代码优化的前提,关注全局数据链路,一些常见的Hive优化策略要懂;

2023-12-06 16:32:52 1328 1

原创 简述TCP连接的“三次握手”与“四次挥手”

比较重要的字段有:(1)序号(sequence number):Seq序号,占32位,用来标识从TCP源端向目的端发送的字节流,发起方发送数据时对此进行标记。(2)确认号(acknowledgement number):Ack序号,占32位,只有ACK标志位为1时,确认序号字段才有效,Ack=Seq+1。(3)标志位(Flags):共6个,即URG、ACK、PSH、RST、SYN、FIN等。具体含义如下:URG:紧急指针(urgent pointer)有效。ACK:确认序号有效。

2023-12-06 13:48:27 938 1

原创 Hive外表创建和加载数据

由于我们的源数据目录没有显示的指定分区字段,因此建表的时候没有指定 location,通过 load data inpath 命令来装载数据。1、load data 命令会移动数据2、load data inpath … overwrite 命令使用不当会导致数据被覆盖。3、通过 alter table 的方式装载数据,会将源文件与对应的 Hive 表仓库进行映射,但是不会移动数据,不会改变目录。

2023-12-05 19:16:09 1056 1

原创 Hive中的行转列和列转行

在使用Hive的数据开发工作中,为了处理复杂的业务需求,经常要用到行转列或列转行的操作。为了节省以后处理这类工作的时间,提高工作效率,现将Hive行列互转的操作方法总结如下。列转行,顾名思义,将原本某列中一行的数据拆分为多行,该操作会使得数据行数增多。我们采用的方法是使用LATERAL VIEW语法,配合explode函数(或其他UDTF)Hive中是有可以直接将一行输出为多行的函数的(即UDTF),比如explode函数,举一个例子来说明这个函数的用法,数据集如下:其中score字段为数组ARRAY(B

2023-12-05 17:34:22 2213 1

原创 IntelliJ IDEA Debug 快捷键

Resume Program:恢复程序,比如,你在第3行和5行各自都打了断点,当前运行到第3行,按F9,则运行到下一个断点即第5行,再按F9,则运行完整个流程,因为后面已经没有断点了。Run to Cursor:运行到光标处,你可以将光标定位到你需要查看的行,然后使用这个功能,代码会运行到光标处,不需要打断点。Step Into:跳入,如果当前有方法,进入方法内部,一般用于进入自定义的方法,不会jdk类库的方法。Step Over:跳过,一行一行的向下走,如果当前行有方法不进入方法。

2023-12-05 16:23:29 852 1

原创 在python中,将特殊字符视为常规字符

原始字符串不处理转义序列。

2023-12-05 16:03:09 360 1

原创 Mysql执行计划

MySQL查询优化器在基于成本和规则对一条查询语句进行优化后,会生成一个执行计划,这个执行计划展示了接下来执行查询的具体方式,比如多表连接的顺序是什么,采用什么方法来具体查询每个表等。我们可以通过EXPLAIN语句来查看某个查询语句的具体执行计划,在语句之前增加 explain 关键字即可使用,返回底层数据查询过程的相关信息。

2023-10-17 16:33:13 21

原创 浅谈数据仓库质量管理规范

浅谈数据仓库质量管理规范

2022-11-07 16:21:56 345 1

原创 深入理解Linux shell中2>&1的含义

深入理解Linux shell中2>&1的含义

2022-10-31 16:05:11 199

原创 数据治理关注点整理

数据治理关注点整理

2022-08-08 15:27:22 643

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除