自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 kafka流动的数据之河Ⅰ

Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。该项目的目标。其持久化层本质上是一个**“按照分布式事务**和其他消息队列相比,Kafka的优势在哪里?

2024-02-15 15:42:54 1375 1

原创 数据仓库基本理论Ⅰ

什么是数据仓库;三种模型;事实表

2024-02-11 17:49:45 1624 1

原创 Scala数组

⭐⭐⭐需要有一定Scala语法基础。

2024-02-07 11:16:49 115 1

原创 Spark从星火到燎原Ⅱ

驱动程序运行应用程序的主要进程,负责创建 SparkContext、将用户程序转换为集群中的作业、跟踪执行程序的运行状态以及调度任务。集群资源管理器是外部服务,用于获取集群中的资源,例如独立管理器、Mesos、YARN等。工作节点是集群中可以运行应用程序代码的任何节点。执行程序是在工作节点上为应用程序启动的进程,负责运行任务并在内存或磁盘存储中保存数据。每个应用程序都有自己的执行程序,它相当于一个Java虚拟机(JVM)。

2024-02-05 15:13:34 995 1

原创 Spark从星火到燎原Ⅰ

Apache Spark是一个分布式、内存级计算框架,是专为大规模数据处理而设计的。

2024-02-05 15:10:00 987 1

原创 Sqoop魔法入门:从零到一,避免数据导入的烦恼

Sqoop提供了一种增量导入数据的机制,允许你根据某个列的值来追踪变化,并只导入该列值大于上次导入时的最大值的数据。对于没有自增字段的表,你可以选择一个适合的列作为增量导入的依据。选项,将 HDFS 中的数据先导入到辅助表中,当 HDFS 中的数据导出成功后,辅助表中的数据在一个事务中导出到目标表中(也就是说,这个过程要么完全成功,要么完全失败)需要注意的是,Sqoop在将数据从MySQL导入到HBase时,会将MySQL的行映射到HBase的行,并将每个MySQL表的列映射到HBase的列族中的列。

2024-01-28 17:26:14 712 1

原创 Zookeeper:分布式系统的指挥家

ZAB(ZooKeeper Atomic Broadcast原子广播)协议是为分布式协调服务ZooKeeper框架专门设计的一种支持崩溃恢复的原子广播协议。在ZooKeeper中,主要依赖ZAB协议来实现分布式数据一致性,基于ZAB协议,ZooKeeper实现了一种主备模式的系统架构来保持集群中各个副本之间的数据一致性。ZAB协议包括两种基本的模式:消息广播、崩溃恢复。Paxos算法,是一种基于消息传递且具有高度容错性的一致性算法。

2024-01-28 11:03:17 1007 1

原创 Hadoop从入门到宕机

Hadoop是一个开源的分布式计算框架,用于。

2024-01-26 21:07:03 1656 1

原创 排序算法(选择,插入,冒泡,快速)

当我们用选择排序来排序一组数据时,可以将其过程比作在一列数中找到最小值,然后把它放在第一个位置,接着在剩下的数中找到最小值,放在第二个位置,以此类推,直到整个列都排好序为止。选择排序的特点是每一轮选择只会交换一次元素的位置,相对于其他排序算法,它的交换次数较少。然而,由于其每一轮都需要在未排序部分中查找最小(或最大)元素,时间复杂度为O(n^2),空间复杂度:O(1)。

2024-01-26 15:36:50 469 1

原创 数据仓库(对比数据库,数据湖)

数据湖是一种存储数据的系统,使用自然格式储存大型二进制对象或文件。它集中存储企业内各种来源的数据,包括原始副本和经过转换的数据,如用于报表、可视化、数据分析和机器学习的数据。数据湖可以包括关系数据库的结构化数据、半结构化数据(如CSV、日志、XML、JSON)、非结构化数据(如电子邮件、文件、PDF)和二进制数据(如图像、音频、视频)。物理上,数据湖是一个数据存储平台,用于集中存储大量多源多类型的企业数据,并支持快速加工和分析。常见的部署技术包括Hadoop,但并非指特定的Hadoop集群。

2024-01-25 20:47:11 350

原创 掌握Hive:从入门到精通的知识总结

Hive知识点较为全面的总结

2024-01-25 20:45:21 707

原创 数仓开发分层

数据仓库分层及其命名要点

2024-01-24 23:29:19 843

原创 二叉树的遍历

二叉树的层次遍历是一种广度优先搜索算法,即按照从上到下、从左到右的顺序遍历二叉树。具体来说,层次遍历从根节点开始,先遍历第一层节点,再遍历第二层节点,以此类推,直到遍历完所有节点。在每一层内部,节点的遍历顺序也是从左到右。层次遍历是一种基于队列数据结构实现的迭代算法。1/ \2 3/ \ \4 5 6层次遍历顺序: 1-2-3-4-5-6。

2023-10-07 09:30:20 40 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除