走过冬季
大数据知识分享
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
00 | 写在前面
你好,如果你正在学习数据仓库、数据分析,或者正在准备这类岗位的面试,可能遇到过:题目太多不知从哪开始,或者理解概念但遇到实际问题还是不会解。这份专栏就是帮助你解决这类困难,。原创 2025-06-24 14:03:54 · 207 阅读 · 0 评论
-
01 | SQL统计连续问题
在SQL中,连续问题是一类比较常见的数据处理需求,核心是识别序列中连续出现的记录。如等场景都属于同类问题。原创 2025-06-24 14:12:33 · 435 阅读 · 0 评论 -
02 | 波峰波谷问题
目标:从股票每日收盘价中识别价格波峰(Peak)和波谷(Trough)的日期及价格。定义波峰:当日价格严格高于前一天且高于后一天。波谷:当日价格严格低于前一天且低于后一天。核心方法LAG()LEAD()窗口函数是波峰波谷问题的标准解法,避免自连接的低效操作。lag()函数:LAG(col, n, DEFAULT) 用于统计窗口内往上第 n 行。参数 1 为列名,参数 2 为往上第 n 行(可选,默认为1),参数 3 为默认值(当往上第 n 行为 NULL 时,取默认值,如不指定,则为NULL)原创 2025-06-24 14:17:35 · 761 阅读 · 0 评论 -
03 | 直播间最大在线人数
目标:统计每个直播间在任意时刻的最大同时在线人数。数据特征用户进入直播间时记录,离开时记录。同一用户可能多次进出同一直播间(需独立计算)。应用场景:直播流量监控、服务器资源分配、主播绩效评估。核心方法UNION ALL合并事件 +累积计算是最高效的解法。面试陷阱事件同时性处理;用户快速进出时的去重逻辑(样例数据中user_id=100在直播间1进出两次)。真题参考:字节跳动、阿里等大厂高频考题,扩展问题常涉及“实时在线人数曲线”。原创 2025-06-24 14:21:09 · 980 阅读 · 0 评论 -
04 | 用户行为轨迹分析
目标:分析用户在应用内的连续行为序列(如页面浏览、功能点击),识别特定行为路径模式(如“A→B→C”)。核心需求相邻行为验证:统计完成相邻动作的用户(如签到后立刻抽奖)。非连续路径匹配:识别行为序列中存在中间步骤的路径(如A→任意页面→B→非C页面→D)。应用场景漏斗转化分析(如购物车→支付流程)用户流失点定位(如注册后未完成新手引导)运营活动效果追踪(如优惠券领取→使用路径)核心方法对比方法适用场景时间复杂度优势窗口函数(LEAD)相邻行为验证O(n log n)代码简洁。原创 2025-06-24 14:28:09 · 573 阅读 · 0 评论 -
05 | 相互关注问题
目标:在社交网络数据中识别相互关注(互粉)的用户对,即用户A关注了用户B,同时用户B也关注了用户A核心需求识别双向关注关系(互粉)排除单向关注关系统计互粉用户对数量应用场景社交网络好友推荐系统(如微博、抖音)社区关键用户识别(KOL发现)社交关系强度分析虚假关注检测高频考点海量数据处理:如何优化10亿+关注关系的互粉查询?动态互粉检测:如何实时更新互粉状态?虚假关注识别:如何检测异常互粉模式?避坑指南空值处理:使用COALESCE处理可能的NULL值数据倾斜。原创 2025-06-24 14:49:54 · 187 阅读 · 0 评论 -
06 | 使用共同IP地址问题
目标:识别共同使用过3个及以上相同IP地址的用户对,用于检测潜在的黑产团伙或账号共享行为。核心需求找出共享至少3个相同IP地址的用户对统计共享的IP数量列出共享的具体IP地址业务场景金融风控:识别养号团伙社交平台:检测账号买卖行为游戏反作弊:打击工作室多开企业安全:监控异常账号关联。原创 2025-06-27 17:03:21 · 109 阅读 · 0 评论 -
07 | 查询最近一笔有效订单
目标:为每个用户查询最近一笔有效订单(非取消状态且最近完成)。核心需求排除(取消状态)的订单返回每个用户最近一笔成功订单的详细信息无有效订单时返回NULL业务场景:电商订单追溯、风控系统交易校验、用户行为分析。原创 2025-06-30 17:17:53 · 774 阅读 · 0 评论
分享