大数据_苡~
码龄6年
关注
提问 私信
  • 博客:366,117
    社区:1
    366,118
    总访问量
  • 83
    原创
  • 28,791
    排名
  • 7,465
    粉丝

个人简介:大数据领域 | 数据仓库建设 | 数据模型设计 | 实时计算 | 数据开发 | 数据中台 | 数据治理

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2019-01-20
博客简介:

不才伟才的博客

博客描述:
个人技术知识库 | 大数据 | 数据仓库 | 数据治理 | OLAP | 流批一体 | 数据湖
查看详细资料
  • 原力等级
    当前等级
    6
    当前总分
    2,365
    当月
    30
个人成就
  • 大数据领域新星创作者
  • 获得931次点赞
  • 内容获得55次评论
  • 获得2,732次收藏
  • 代码片获得5,361次分享
创作历程
  • 33篇
    2024年
  • 3篇
    2023年
  • 6篇
    2022年
  • 17篇
    2021年
  • 25篇
    2020年
  • 14篇
    2019年
成就勋章
TA的专栏
  • 001-大数据技术
    27篇
  • 002-数据仓库
    5篇
  • 003-数据开发
    9篇
  • 015-SQL独孤九剑
    6篇
  • 004-数据治理
    4篇
  • 011-数据要素研究
  • 005-数据库
    15篇
  • 006-行业政策&案例
    4篇
  • 007-操作系统
    2篇
  • 008-数据结构与算法
    1篇
  • 009-人工智能
    2篇
  • 010-JavaEE
    6篇
  • 012-问题杂烩
    2篇
  • 013-我的思考
    1篇
  • 014-基础学科
    1篇
兴趣领域 设置
  • 大数据
    hadoophivesparkflink数据仓库
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Hive SQL业务场景:求平台最高峰同时直播人数

现有某直播平台各主播登陆明细表:主播ID,上线时间,下线时间。现在需要求出该直播平台最高峰期同时在线主播人数。
原创
发布博客 2024.10.11 ·
240 阅读 ·
3 点赞 ·
0 评论 ·
4 收藏

Hive SQL业务场景:连续5天涨幅超过5%股票

现有一张股票价格表 dwd_stock_trade_dtl 有3个字段分别是:股票代码(stock_code),日期(trade_date),收盘价格(closing_price)。请找出满足连续5天以上(含)每天上涨超过5%的股票,并给出连续满足天数及开始和结束日期。备注:不考虑停牌或其他情况,仅仅关注每天连续5天上涨超过5%的股票。
原创
发布博客 2024.09.27 ·
815 阅读 ·
4 点赞 ·
0 评论 ·
10 收藏

数据管理能力成熟度评估模型DCMM

DCMM(Data Management Capability Maturity Assessment Model)数据管理能力成熟度评估模型是由中国国家标准化管理委员会于2018年3月15日发布,于2018年10月1日起实施的我国首个数据管理领域国家标准。该标准把组织内部数据能力划分为八个重要组成部分,描述了每个组成部分的定义、功能、目标和标准。本标准适用于信息系统的建设单位,应用单位等进行数据管理时候的规划,设计和评估。也可以作为针对信息系统建设状况的指导、监督和检查的依据。
原创
发布博客 2024.09.04 ·
957 阅读 ·
5 点赞 ·
0 评论 ·
10 收藏

标签画像体系应用实践

标签画像体系应用是一种利用用户标签数据实现个性化推荐和精准营销的方法。通过整合和清洗数据、画像建模和智能推荐系统开发等步骤,可以解决数据碎片化、缺乏精准推荐等问题。通过案例分析可以看出,标签画像体系应用能够帮助企业更好地了解用户需求,提供个性化的服务,提升竞争力和用户满意度。
原创
发布博客 2024.03.14 ·
1183 阅读 ·
10 点赞 ·
0 评论 ·
17 收藏

【最全最经典SQL题】五 产生连续数值

构造两个临时表 一个4一个6,通过笛卡尔积可以构造24行记录扩展:生产过去2年的年月字段FROM () xcxc。
原创
发布博客 2024.03.12 ·
803 阅读 ·
24 点赞 ·
0 评论 ·
6 收藏

【最全最经典SQL题】四 窗口大小控制

从事数仓,数据开发的同学应该知道,日常工作中主要要用到SQL去实现业务各种数据需求。本系列【最全最经典SQL题】将列举日常工作或者笔试面试中频繁、经典的业务场景并通过SQL去实现。【最全最经典SQL题】四 窗口大小控制【最全最经典SQL题】五 数据合并与拆分【最全最经典SQL题】六 数据扩充与收缩【最全最经典SQL题】七 容器【最全最经典SQL题】八 时间序列【最全最经典SQL题】九 非等值连接更新中........
原创
发布博客 2024.03.12 ·
461 阅读 ·
12 点赞 ·
0 评论 ·
9 收藏

【最全最经典SQL题】三 累计求值

从事数仓,数据开发的同学应该知道,日常工作中主要要用到SQL去实现业务各种数据需求。本系列【最全最经典SQL题】将列举日常工作或者笔试面试中频繁、经典的业务场景并通过SQL去实现。【最全最经典SQL题】三 累计求值【最全最经典SQL题】四 窗口大小控制【最全最经典SQL题】五 数据合并与拆分【最全最经典SQL题】六 数据扩充与收缩【最全最经典SQL题】七 容器【最全最经典SQL题】八 时间序列【最全最经典SQL题】九 非等值连接更新中........
原创
发布博客 2024.03.12 ·
520 阅读 ·
8 点赞 ·
0 评论 ·
10 收藏

【最全最经典SQL题】二 排名取它值

从事数仓,数据开发的同学应该知道,日常工作中主要要用到SQL去实现业务各种数据需求。本系列【最全最经典SQL题】将列举日常工作或者笔试面试中频繁、经典的业务场景并通过SQL去实现。【最全最经典SQL题】二 排名取它值【最全最经典SQL题】三 累计求值【最全最经典SQL题】四 窗口大小控制更新中........本系列将提供建表语句、数据、解题SQL代码,大家动动小手指就能看到效果以便理解,为了方便大部分同学实操,默认采用MySQL的SQL,如Hive有区别的会注明一下。
原创
发布博客 2024.03.11 ·
503 阅读 ·
7 点赞 ·
0 评论 ·
5 收藏

【最全最经典SQL题】一 行列转换

从事数仓,数据开发的同学应该知道,日常工作中主要要用到SQL去实现业务各种数据需求。本系列【最全最经典SQL题】将列举日常工作或者笔试面试中频繁、经典的业务场景并通过SQL去实现。本系列不定期更新,内容如下:【最全最经典SQL题】一 行列转换【最全最经典SQL题】二 排名取它值【最全最经典SQL题】三 累计求值【最全最经典SQL题】四 窗口大小控制更新中........
原创
发布博客 2024.03.11 ·
702 阅读 ·
14 点赞 ·
0 评论 ·
10 收藏

dolphinscheduler海豚调度(五)seatunnel案例

seatunnel作为新一代流行的数据集成工具,其功能非常强大且简单易用,今天演示一下如何通过dolphinscheduler创建并运行seatunnel任务本次dolphinscheduler和seatunnel均部署在同一机器上的单机版本。
原创
发布博客 2024.03.06 ·
3752 阅读 ·
9 点赞 ·
0 评论 ·
12 收藏

Hive SQL 开发指南(三)优化及常见异常

使map的输出数据更均匀的分布到reduce中去,是我们的最终目标。由于Hash算法的局限性,按key Hash会或多或少的造成数据倾斜。大量经验表明数据倾斜的原因是人为的建表疏忽或业务逻辑可以规避的。在此给出较为通用的步骤:1、采样log表,哪些user_id比较倾斜,得到一个结果表tmp1。由于对计算框架来说,所有的数据过来,他都是不知道数据分布情况的,所以采样是并不可少的。2、数据的分布符合社会学统计规则,贫富不均。倾斜的key不会太多,就像一个社会的富人不多,奇特的人不多一样。
原创
发布博客 2024.03.05 ·
2000 阅读 ·
20 点赞 ·
1 评论 ·
21 收藏

MySQL 新增用户及权限分配

原创
发布博客 2024.03.05 ·
1860 阅读 ·
11 点赞 ·
0 评论 ·
13 收藏

Hive SQL 开发指南(二)使用(DDL、DML,DQL)

建表注意事项CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用户可以用 IF NOT EXIST 选项来忽略这个异常EXTERNAL 关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际数据的路径(LOCATION)LIKE 允许用户复制现有的表结构,但是不复制数据COMMENT可以为表与字段增加描述ROW FORMAT用户在建表的时候可以自定义 SerDe 或者使用自带的 SerDe。
原创
发布博客 2024.03.01 ·
1584 阅读 ·
26 点赞 ·
0 评论 ·
20 收藏

Hive SQL 开发指南(一)数据类型及函数

在大数据领域,Hive SQL 是一种常用的查询语言,用于在 Hadoop上进行数据分析和处理。为了确保代码的可读性、维护性和性能,制定一套规范化的 Hive SQL 开发规范至关重要。本文将介绍 Hive SQL 的基础知识,并提供一些规范化的开发指南,帮助您高效地编写 Hive SQL 查询。本系列分为Hive SQL 开发指南(一)数据类型及函数Hive SQL 开发指南(二)使用(DDL、DML,DQL)Hive SQL 开发指南(三)优化及常见异常。
原创
发布博客 2024.03.01 ·
1695 阅读 ·
25 点赞 ·
0 评论 ·
20 收藏

当我们聊数据质量的时候,我们在聊些什么?

随着大数据行业的深入发展,数据质量越来越成为一个绕不开的话题,那当大家在聊数据质量的时候,通常会聊什么呢?从什么是数据质量开始。
转载
发布博客 2024.02.29 ·
104 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数仓模型设计方法论

规范定义主要定义派生指标体系。包括原子指标、修饰词修饰词时间周期和派生指标。
原创
发布博客 2024.02.28 ·
1855 阅读 ·
25 点赞 ·
0 评论 ·
34 收藏

dolphinscheduler海豚调度(四)钉钉告警

在之前的博文中,我们已经介绍了DolphinScheduler海豚调度的基本概念和工作流程,以及Shell任务和SQL任务的实践。今天,让我们来学习DolphinScheduler中的另一个重要功能:钉钉告警。
原创
发布博客 2024.02.28 ·
1401 阅读 ·
10 点赞 ·
0 评论 ·
8 收藏

dolphinscheduler海豚调度(三)SQL任务

在之前的博文中,我们已经介绍了DolphinScheduler海豚调度的基本概念和模块,安装部署和元数据切换,以及Shell任务的实践。今天,让我们来深入探讨DolphinScheduler中另一种常见的任务类型:SQL任务。SQL任务是DolphinScheduler中非常重要的一种任务类型,它允许用户在调度系统中运行SQL语句,通常用于数据处理、数据分析等场景。下面我分别以为MySQL和Hive为例,详细介绍如何在DolphinScheduler中创建和配置SQL任务。
原创
发布博客 2024.02.27 ·
2372 阅读 ·
13 点赞 ·
3 评论 ·
11 收藏

dolphinscheduler海豚调度(二)快速运行第一个项目

在点击运行之后,在启动前请先设置参数的界面勾选是否是补数,并选中对应的补数方式和日期即可。注意:上线状态的工作流不能编辑,如果需要编辑则需要将该工作流下线。好了,第一个的dolphinScheduler 任务就完成了。进入对应的工作流,选中你要单独运行的任务,右键点击运行即可。第二步,进入刚才创建好的项目,工作流定义,创建工作流。可以在任务实例中查看刚才执行的任务运行状态和日志。此外,如果想运行单一任务该如果操作?确定,保存,这样一个任务就完成了。在工作流定义中也可以设置定时。第一步,项目管理,创建项目。
原创
发布博客 2024.02.27 ·
663 阅读 ·
12 点赞 ·
0 评论 ·
11 收藏

谈谈数据基础设施

刘烈宏也呼吁,希望高校、科研院所、产业链各界,在数据创新、融合、变革的时代浪潮下,共同推动数据基础设施概念理论、架构体系、核心技术、标准规范不断演进迭代,携手并进,推动数据基础设施建设,完善数据基础制度,激活数据要素价值,谱写数字经济发展新篇章,共同为我国数据事业发展贡献力量。,刘烈宏认为,数据基础设施利用云计算、边缘计算、分布式计算、大数据处理、AI分析、绿色低碳等技术,为参与方提供高效便捷、安全可靠的数据要素存储、计算、分析能力,有效推动数据处理环节实现高效率、低成本、高智能。
转载
发布博客 2024.02.27 ·
168 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多