柒十陆-CSDN博客

原创性别需不需要加索引？

性别字段通常不需要加索引，因为它是低基数字段，索引对查询性能的提升有限，反而可能带来额外的存储和维护开销。

2024-11-29 15:41:41 486

原创留存率的定义与SQL实现

留存率是指在特定时间段内，仍然继续使用某项产品或服务的用户占用户总数的百分比。通常，留存率会以日，周，或月为单位进行统计和分析。

2024-10-02 15:56:30 1687 1

原创 HQL || SQL：每篇文章同一时刻最大在看人数

本篇文章探讨了一道题目，要求计算每篇文章在同一时刻的最大在看人数，并通过类比直播间或视频业务中的点赞数计算方法来理解解决方案。

2024-10-01 20:58:03 507

原创数据仓库基本理论Ⅰ

什么是数据仓库；三种模型；事实表

2024-02-11 17:49:45 1798 1

原创 Scala数组

⭐⭐⭐需要有一定Scala语法基础。

2024-02-07 11:16:49 254 1

驱动程序运行应用程序的主要进程，负责创建 SparkContext、将用户程序转换为集群中的作业、跟踪执行程序的运行状态以及调度任务。集群资源管理器是外部服务，用于获取集群中的资源，例如独立管理器、Mesos、YARN等。工作节点是集群中可以运行应用程序代码的任何节点。执行程序是在工作节点上为应用程序启动的进程，负责运行任务并在内存或磁盘存储中保存数据。每个应用程序都有自己的执行程序，它相当于一个Java虚拟机（JVM）。

2024-02-05 15:13:34 1110 1

原创 Spark从星火到燎原Ⅰ

Apache Spark是一个分布式、内存级计算框架，是专为大规模数据处理而设计的。

2024-02-05 15:10:00 1079 1

原创 Sqoop魔法入门：从零到一，避免数据导入的烦恼

Sqoop提供了一种增量导入数据的机制，允许你根据某个列的值来追踪变化，并只导入该列值大于上次导入时的最大值的数据。对于没有自增字段的表，你可以选择一个适合的列作为增量导入的依据。选项，将 HDFS 中的数据先导入到辅助表中，当 HDFS 中的数据导出成功后，辅助表中的数据在一个事务中导出到目标表中（也就是说，这个过程要么完全成功，要么完全失败）需要注意的是，Sqoop在将数据从MySQL导入到HBase时，会将MySQL的行映射到HBase的行，并将每个MySQL表的列映射到HBase的列族中的列。

2024-01-28 17:26:14 778 1