大数据
文章平均质量分 89
000X000
这个作者很懒,什么都没留下…
展开
-
Hive参数与性能调优-V2.0
Hive参数与性能调优-V2.0原创 2023-09-16 19:38:27 · 834 阅读 · 0 评论 -
详细解释HiveSQL执行计划
Hive SQL的执行计划描述SQL实际执行的整体轮廓,通过执行计划能了解SQL程序在转换成相应计算引擎的执行逻辑,掌握了执行逻辑也就能更好地把握程序出现的瓶颈点,从而能够实现更有针对性的优化。此外还能帮助开发者识别看似等价的SQL其实是不等价的,看似不等价的SQL其实是等价的SQL。可以说执行计划是打开SQL优化大门的一把钥匙。explain,在查询语句的SQL前面加上关键字explain是查看执行计划的基本方法。学会explain,能够给我们工作中使用hive带来极大的便利!原创 2023-09-16 19:16:43 · 550 阅读 · 0 评论 -
亿级大表拆分过程记录
亿级大表拆分过程记录原创 2023-05-26 21:13:44 · 634 阅读 · 0 评论 -
2023-Hive必备详细教程
2023-Hive必备详细教程原创 2023-04-28 09:14:28 · 1755 阅读 · 0 评论 -
数据治理-数据质量篇
数据治理-数据质量篇原创 2023-04-28 09:23:56 · 1567 阅读 · 0 评论 -
Hive SQL 2023必考常用窗口函数及面试题
Hive SQL 2023必考常用窗口函数及面试题原创 2023-04-03 09:14:15 · 739 阅读 · 0 评论 -
数据质量评价体系参考
数据质量评价体系参考原创 2022-11-15 16:38:38 · 685 阅读 · 1 评论 -
元数据治理:产品方案介绍及案例实践
元数据治理:产品方案介绍及案例实践原创 2022-09-23 14:17:44 · 574 阅读 · 1 评论 -
SQL 优化大全【收藏版】
SQL 优化大全【收藏版】原创 2022-09-23 14:13:38 · 1583 阅读 · 0 评论 -
如何保障数仓数据质量?
如何保障数仓数据质量?原创 2022-09-23 14:06:20 · 247 阅读 · 0 评论 -
大数据生态圈完整知识体系
大数据生态圈完整知识体系原创 2022-08-16 13:19:47 · 989 阅读 · 1 评论 -
Spark读取Hive表后会有多少个Task?
Spark读取Hive表后会有多少个Task?原创 2022-08-04 10:57:06 · 750 阅读 · 0 评论 -
数据模型设计方法概述
数据模型设计方法概述原创 2022-07-21 09:46:43 · 688 阅读 · 0 评论 -
如何提升数据质量
如何提升数据质量原创 2022-07-19 09:24:35 · 213 阅读 · 0 评论 -
Apache Doris 成为 Apache 顶级项目
Apache Doris 成为 Apache 顶级项目原创 2022-06-23 14:51:07 · 314 阅读 · 0 评论 -
学会Hive解析Json数组
学会Hive解析Json数组原创 2022-06-14 14:48:09 · 6027 阅读 · 0 评论 -
详解分布式系统的缓存设计
详解分布式系统的缓存设计原创 2022-06-13 11:37:57 · 800 阅读 · 0 评论 -
大数据GitHub项目-学习必备
大数据GitHub项目-学习必备原创 2022-06-13 11:32:49 · 1865 阅读 · 0 评论 -
Hive 性能调优大全
Hive 性能调优大全原创 2022-06-13 10:53:20 · 4424 阅读 · 0 评论 -
数据库优化
数据库优化原创 2022-06-13 10:48:08 · 129 阅读 · 0 评论 -
基于Clickhouse日志系统技术
基于Clickhouse日志系统技术转载 2022-05-30 15:42:24 · 2137 阅读 · 1 评论 -
系统升级到集群系列概述
系统升级到集群系列概述原创 2022-05-28 16:15:54 · 160 阅读 · 0 评论 -
设计权限系统例子
设计权限系统RBAC原创 2022-05-28 15:57:57 · 170 阅读 · 0 评论 -
分布式事务学习总结
分布式事务学习总结原创 2022-05-28 15:51:49 · 217 阅读 · 0 评论 -
大数据必备-HDFS原理
大数据必备-HDFS原理原创 2022-05-28 15:37:30 · 114 阅读 · 0 评论 -
Kafka 开发基础总结
Kafka 开发基础总结原创 2022-05-28 15:33:15 · 213 阅读 · 0 评论 -
Clickhouse 亿级数据性能测试
Clickhouse 亿级数据性能测试原创 2022-05-23 09:30:39 · 1283 阅读 · 0 评论 -
湖仓一体2.0概述
湖仓一体2.0原创 2022-05-19 15:56:35 · 897 阅读 · 0 评论 -
ES+Redis+MySQL数据中心建设参考
ES+Redis+MySQL数据中心建设参考原创 2022-05-16 08:55:56 · 515 阅读 · 0 评论 -
MapReduce分片阶段详解
MapReduce分片阶段详解原创 2022-04-13 16:55:54 · 441 阅读 · 0 评论 -
HiveSQL原理和优化详解
HiveSQL原理和优化详解转载 2022-04-13 16:50:47 · 2708 阅读 · 2 评论 -
Hive Sql 最强最完整学习笔记
Hive Sql 最强最完整学习笔记转载 2022-04-13 16:32:43 · 1973 阅读 · 0 评论 -
数据分析报告概述
数据分析报告概述原创 2022-04-11 16:43:42 · 600 阅读 · 0 评论 -
详解用户画像
详解用户画像原创 2022-03-16 11:13:55 · 1352 阅读 · 0 评论 -
什么是OLAP
问题导读:1、为什么会出现OLAP应用?2、OLAP的度过了哪些发展历史?3、OLAP的基本内容有哪些?4、OLAP常见操作有哪些?OLAP(Online AnalyticalProcessing)是一种数据处理技术,专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持。OLAP是数据仓库对外数据能力的一种重要的输出方式:OLAP的起源60年代,关系数据库之父Edgar F. Codd提出了关系模型,促进了联机事务处理OLTP( On-line Transaction Pr.原创 2021-12-23 09:00:48 · 1728 阅读 · 0 评论 -
大数据数据倾斜问题
数据倾斜数据倾斜是我们在处理大数据量问题时绕不过去的问题,也是在面试中几乎必问的考点。正常的数据分布理论上都是倾斜的,就是我们所说的'二八原理':80%的财富集中在20%的人手中, 80%的用户只使用20%的功能 , 20%的用户贡献了80%的访问量。简单来说数据倾斜就是数据的key 的分化严重不均,造成一部分数据很多,一部分数据很少的局面。表现相信大部分做数据的童鞋们都会遇到数据倾斜,数据倾斜会发生在数据开发的各个环节中,比如:用Hive算数据的时候reduce阶段卡在99.99%用Spa原创 2021-08-25 15:02:10 · 196 阅读 · 0 评论 -
Hive基础调优详解
本文基本涵盖以下内容: 一、基于Hadoop的数据仓库Hive基础知识 二、HiveSQL语法 三、Hive性能优化 四、Hive性能优化之数据倾斜专题 五、HiveSQL优化十二板斧 六、Hive面试题(一) 七、Hive/Hadoop高频面试点集合(二) 基于Hadoop的数据仓库Hive基础知识Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的原创 2021-08-24 09:04:18 · 548 阅读 · 0 评论 -
用户画像技术干货
1. 用户画像是什么?在互联网步入大数据时代后,用户行为给企业的产品和服务带来了一系列的改变和重塑,其中最大的变化在于,用户的一切行为在企业面前是可“追溯”“分析”的。企业内保存了大量的原始数据和各种业务数据,这是企业经营活动的真实记录,如何更加有效地利用这些数据进行分析和评估,成为企业基于更大数据量背景的问题所在。随着大数据技术的深入研究与应用,企业的关注点日益聚焦在如何利用大数据来为精细化运营和精准营销服务,而要做精细化运营,首先要建立本企业的用户画像。1.1 画像简介用户画像,即...原创 2021-08-23 15:52:16 · 1071 阅读 · 0 评论 -
实时流式CDC Debezium
问题导读:1.什么是Debezium?2.我们能用Debezium做些什么?3.如何看待Debezium常规使用架构?1. 什么是DebeziumDebezium是一个开源的分布式平台,用于捕捉变化数据(change data capture)的场景。它可以捕捉数据库中的事件变化(例如表的增、删、改等),并将其转为事件流,使得下游应用可以看到这些变化,并作出指定响应。2. Debezium常规使用架构根据Debezium官网[1]提供的常规使用的架构图:可以看到,在对RMSDB数据..原创 2021-05-27 17:14:05 · 737 阅读 · 0 评论 -
书写高质量SQL的30条建议
1、查询SQL尽量不要使用select *,而是select具体字段。反例子:select * from employee;复制代码正例子:select id,name from employee;复制代码理由:只取需要的字段,节省资源、减少网络开销。 select * 进行查询时,很可能就不会使用到覆盖索引了,就会造成回表查询。2、如果知道查询结果只有一条或者只要最大/最小一条记录,建议用limit 1假设现在有employee员工表,要找出一个名字叫jay的人.原创 2021-05-26 14:11:55 · 101 阅读 · 0 评论