自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 性别需不需要加索引?

性别字段通常不需要加索引,因为它是低基数字段,索引对查询性能的提升有限,反而可能带来额外的存储和维护开销。

2024-11-29 15:41:41 486

原创 留存率的定义与SQL实现

留存率是指在特定时间段内,仍然继续使用某项产品或服务的用户占用户总数的百分比。通常,留存率会以日,周,或月为单位进行统计和分析。

2024-10-02 15:56:30 1687 1

原创 HQL || SQL:每篇文章同一时刻最大在看人数

本篇文章探讨了一道题目,要求计算每篇文章在同一时刻的最大在看人数,并通过类比直播间或视频业务中的点赞数计算方法来理解解决方案。

2024-10-01 20:58:03 507

原创 HQL || SQL :连续签到领金币

2024-08-30 15:43:35 902

原创 HQL || SQL练习:根据四节气推算季节

练习

2024-08-22 11:01:03 399

原创 HQL || SQL练习:用户登录区间合并

练习

2024-08-19 16:08:02 231 1

原创 数据仓库基本理论Ⅰ

什么是数据仓库;三种模型;事实表

2024-02-11 17:49:45 1798 1

原创 Scala数组

⭐⭐⭐需要有一定Scala语法基础。

2024-02-07 11:16:49 254 1

原创 Spark从星火到燎原Ⅱ

驱动程序运行应用程序的主要进程,负责创建 SparkContext、将用户程序转换为集群中的作业、跟踪执行程序的运行状态以及调度任务。集群资源管理器是外部服务,用于获取集群中的资源,例如独立管理器、Mesos、YARN等。工作节点是集群中可以运行应用程序代码的任何节点。执行程序是在工作节点上为应用程序启动的进程,负责运行任务并在内存或磁盘存储中保存数据。每个应用程序都有自己的执行程序,它相当于一个Java虚拟机(JVM)。

2024-02-05 15:13:34 1110 1

原创 Spark从星火到燎原Ⅰ

Apache Spark是一个分布式、内存级计算框架,是专为大规模数据处理而设计的。

2024-02-05 15:10:00 1079 1

原创 Sqoop魔法入门:从零到一,避免数据导入的烦恼

Sqoop提供了一种增量导入数据的机制,允许你根据某个列的值来追踪变化,并只导入该列值大于上次导入时的最大值的数据。对于没有自增字段的表,你可以选择一个适合的列作为增量导入的依据。选项,将 HDFS 中的数据先导入到辅助表中,当 HDFS 中的数据导出成功后,辅助表中的数据在一个事务中导出到目标表中(也就是说,这个过程要么完全成功,要么完全失败)需要注意的是,Sqoop在将数据从MySQL导入到HBase时,会将MySQL的行映射到HBase的行,并将每个MySQL表的列映射到HBase的列族中的列。

2024-01-28 17:26:14 778 1

原创 Zookeeper:分布式系统的指挥家

ZAB(ZooKeeper Atomic Broadcast原子广播)协议是为分布式协调服务ZooKeeper框架专门设计的一种支持崩溃恢复的原子广播协议。在ZooKeeper中,主要依赖ZAB协议来实现分布式数据一致性,基于ZAB协议,ZooKeeper实现了一种主备模式的系统架构来保持集群中各个副本之间的数据一致性。ZAB协议包括两种基本的模式:消息广播、崩溃恢复。Paxos算法,是一种基于消息传递且具有高度容错性的一致性算法。

2024-01-28 11:03:17 1130 1

原创 Hadoop从入门到宕机

Hadoop是一个开源的分布式计算框架,用于。

2024-01-26 21:07:03 1756 1

原创 排序算法(选择,插入,冒泡,快速)

当我们用选择排序来排序一组数据时,可以将其过程比作在一列数中找到最小值,然后把它放在第一个位置,接着在剩下的数中找到最小值,放在第二个位置,以此类推,直到整个列都排好序为止。选择排序的特点是每一轮选择只会交换一次元素的位置,相对于其他排序算法,它的交换次数较少。然而,由于其每一轮都需要在未排序部分中查找最小(或最大)元素,时间复杂度为O(n^2),空间复杂度:O(1)。

2024-01-26 15:36:50 505 1

原创 数据仓库(对比数据库,数据湖)

数据湖是一种存储数据的系统,使用自然格式储存大型二进制对象或文件。它集中存储企业内各种来源的数据,包括原始副本和经过转换的数据,如用于报表、可视化、数据分析和机器学习的数据。数据湖可以包括关系数据库的结构化数据、半结构化数据(如CSV、日志、XML、JSON)、非结构化数据(如电子邮件、文件、PDF)和二进制数据(如图像、音频、视频)。物理上,数据湖是一个数据存储平台,用于集中存储大量多源多类型的企业数据,并支持快速加工和分析。常见的部署技术包括Hadoop,但并非指特定的Hadoop集群。

2024-01-25 20:47:11 423

原创 掌握Hive:从入门到精通的知识总结

Hive知识点较为全面的总结

2024-01-25 20:45:21 1089

原创 数仓开发分层

数据仓库分层及其命名要点

2024-01-24 23:29:19 969 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除