耗子背刀PK猫-CSDN博客

原创 OSI 七层模型

分出层次的目的是运用层次模型可以把开放系统的信息交换问题拆分到多方面易于调整的硬件软件模块层中，而各层可以依照需求单独展开改动或增加功效，与此同时，有助于各个生产厂家的机器设备相互连接，也有助于各位学习、正确理解数据通信网络。在物理层带来比特流服务的前提上，创建邻近结点间的数据链路，根据差错控制带来数据帧（Frame）在信道上无差错的传送，并展开各电路上的行为系列。要求通讯设备的机械的、电气的、功效的和流程的特点，用于创建、维护和拆卸物理链路连接。1、同一层中的各节点都是有相同的层次模型，具备相同的功效。

2024-01-16 15:26:54 835 1

原创大数据存储架构学习摘要：数据仓库、数据集市、数据湖、数据网格、湖仓一体

1、数据库（Database）是一个存储相关数据的地方，用于捕获特定情况的数据。它可以是结构化、关系型、非结构化或NoSQL数据库。数据库主要用于在线事务处理（OLTP），处理实时的事务数据，并具有特定的目的和应用。2、数据仓库（Data Warehouse）是组织的核心分析系统，用于存储历史数据和支持数据分析。数据仓库与操作数据存储（Operational Data Store，ODS）一起工作，将各种数据库中的数据捕获并统一存储在一个位置。

2023-12-14 15:54:42 1662 1

原创 Datax学习整理

DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。Datax将不同数据源的同步抽象为从源头数据源读取数据的Reader插件，以及向目标端写入数据的Writer插件，理论上DataX框架可以支持任意数据源类型的数据同步工作。

2023-12-08 14:39:24 1020

原创 spark_shuffle相关参数整理

当ShuffleManager为SortShuffleManager时，如果shuffle read task的数量小于这个阈值（默认是200），则shuffle write过程中不会进行排序操作，而是直接按照未经优化的HashShuffleManager的方式去写数据，但是最后会将每个task产生的所有临时磁盘文件都合并成一个文件，并会创建单独的索引文件。：如果作业可用的内存资源较为充足的话，可以适当增加这个参数的大小（比如96m），从而减少拉取数据的次数，也就可以减少网络传输的次数，进而提升性能。

2023-12-07 11:11:36 901

原创 Spring Boot 学习笔记：MyBatis

通过MyBatis数据访问。

2023-12-06 18:35:50 323 1

原创 Hive优化

1、日常Hive开发中时刻养成提前数据收敛的习惯，避免无用数据参与到计算中；2、不要过度进行优化，有可能做的是无用功甚至产生负效应，在调优上投入的工作成本和回报不成正比；3、对于公共可复用的逻辑代码，可以抽取出来落地临时表或者中间表，提升复用性，强调复用！4、理解HiveQL底层执行的原理，优化起来才有章可循；5、理透需求是代码优化的前提，关注全局数据链路，一些常见的Hive优化策略要懂；

2023-12-06 16:32:52 1328 1

原创简述TCP连接的“三次握手”与“四次挥手”

比较重要的字段有：（1）序号（sequence number）：Seq序号，占32位，用来标识从TCP源端向目的端发送的字节流，发起方发送数据时对此进行标记。（2）确认号（acknowledgement number）：Ack序号，占32位，只有ACK标志位为1时，确认序号字段才有效，Ack=Seq+1。（3）标志位（Flags）：共6个，即URG、ACK、PSH、RST、SYN、FIN等。具体含义如下：URG：紧急指针（urgent pointer）有效。ACK：确认序号有效。

2023-12-06 13:48:27 938 1

原创 Hive外表创建和加载数据

由于我们的源数据目录没有显示的指定分区字段，因此建表的时候没有指定 location，通过 load data inpath 命令来装载数据。1、load data 命令会移动数据2、load data inpath … overwrite 命令使用不当会导致数据被覆盖。3、通过 alter table 的方式装载数据，会将源文件与对应的 Hive 表仓库进行映射，但是不会移动数据，不会改变目录。

2023-12-05 19:16:09 1056 1

原创 Hive中的行转列和列转行

在使用Hive的数据开发工作中，为了处理复杂的业务需求，经常要用到行转列或列转行的操作。为了节省以后处理这类工作的时间，提高工作效率，现将Hive行列互转的操作方法总结如下。列转行，顾名思义，将原本某列中一行的数据拆分为多行，该操作会使得数据行数增多。我们采用的方法是使用LATERAL VIEW语法，配合explode函数（或其他UDTF）Hive中是有可以直接将一行输出为多行的函数的（即UDTF），比如explode函数，举一个例子来说明这个函数的用法，数据集如下：其中score字段为数组ARRAY(B

2023-12-05 17:34:22 2213 1

zhr2415658919的博客

原创 OSI 七层模型

原创大数据存储架构学习摘要：数据仓库、数据集市、数据湖、数据网格、湖仓一体

原创 Datax学习整理

原创 spark_shuffle相关参数整理

原创 Spring Boot 学习笔记：MyBatis

原创 Hive优化

原创简述TCP连接的“三次握手”与“四次挥手”

原创 Hive外表创建和加载数据

原创 Hive中的行转列和列转行

原创 IntelliJ IDEA Debug 快捷键

原创在python中，将特殊字符视为常规字符

原创 Mysql执行计划

原创浅谈数据仓库质量管理规范

原创深入理解Linux shell中2＞&1的含义

原创数据治理关注点整理

空空如也

空空如也