sysdate1
码龄3年
关注
提问 私信
  • 博客:28,818
    28,818
    总访问量
  • 30
    原创
  • 230,026
    排名
  • 293
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:湖北省
  • 加入CSDN时间: 2021-11-10
博客简介:

ziaoming_biu的博客

查看详细资料
  • 原力等级
    当前等级
    3
    当前总分
    275
    当月
    3
个人成就
  • 获得486次点赞
  • 内容获得27次评论
  • 获得436次收藏
创作历程
  • 29篇
    2024年
  • 1篇
    2023年
成就勋章
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

ods.sql

发布资源 2024.05.07 ·
sql

Hive优化以及相关参数设置

如取模结果为0的数据记录存放到一个文件,取模为1的数据存放到一个文件,取模为2的数据存放到一个文件。如果某个不平衡的job中有几个 reduce task 执行的时间要比其他的 reduce task 消耗的时间要多得多的话,那么保留的插槽就会一直空闲却无法被其他的 job 使用,直到所有的 task 都结束了才会释放。默认情况下,在进行分组聚合的时候,相同的键的数据会进入到同一个reduce中进行处理,如果分组的时候某一个值有大量的重复的数据,则会导致某一个reduce任务量会很大,从而导致数据倾斜。
原创
发布博客 2024.05.01 ·
2911 阅读 ·
55 点赞 ·
3 评论 ·
63 收藏

ETL (extract transformation load)

ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽(extract)、转换(transform)、加载(load)至目的端的过程,是数据仓库的生命线。它是一种数据处理过程,用于从不同的数据源中提取数据、对数据进行转换和清洗,并将处理后的数据加载到目标系统或数据仓库中。 ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。 ETL是BI项目重要的一个环节。
原创
发布博客 2024.05.01 ·
1639 阅读 ·
13 点赞 ·
0 评论 ·
13 收藏

ORACLE 性能优化 高水位调节

>索引优化->分区优化->优化器hints优化2.就是select,select后面避免使用*,查什么字段就写什么字段,因为使用*是走全表扫描的,不走索引3.最有效率的表名顺序,oracale的解析器按照从右到左的顺序处理FROM子句中的表名,所以把数据记录最少的放在最后面,如果有三张表以上的表,那就把交叉表放在最后面;4.,join 之前先去重或者过滤一下,这样join时连接表的数据量更少,连接过程就优化了。
原创
发布博客 2024.04.30 ·
1268 阅读 ·
19 点赞 ·
1 评论 ·
11 收藏

Oracle 执行计划

ALL_ROWS是针对整个目标SQL的Hint,它的含义是让优化器启用CBO,而且在得到目标SQL的执行计划时会选择那些 吞吐量 最佳的执行路径。FIRST_ROWS(n)是针对整个目标SQL的Hint,它的含义是让优化器启用CBO模式,而且在得到目标SQL的执行计划时会选择那些得以最快响应并返回头n条记录的执行路径.如果在。执行计划描述了SQL引擎为执行SQL语句进行的操作;,并不是一个个数据库扫的,然后我们经常说全表扫描慢是针对数据量很多的情况,数据量少的话,全表扫描并不慢的,不过随着数据量越多,
原创
发布博客 2024.04.29 ·
2173 阅读 ·
16 点赞 ·
0 评论 ·
13 收藏

Oracle 表分区

分区表就是将表在物理存储层面分成多个小的片段,这些片段即称为分区,每个分区保存表的一部分数据,表的分区对上层应用是完全透明的,从应用的角度来看,表在逻辑上依然是一个整体。目的:提高大表的查询效率概念:将一个表划分为多个分区表,"分而治之"优缺点'改善查询性能': 分区对象的查询仅搜索自己关系的分区'增强可用性': 如果某个分区出现故障,其它分区的数据仍然可用'维护方便': 如果某个分区出现故障,仅修复该分区即可。
原创
发布博客 2024.04.29 ·
1736 阅读 ·
18 点赞 ·
0 评论 ·
31 收藏

Oracle索引详解

索引是建立在表的一列或多个列上的辅助对象,目的是加快访问表中的数据;Oracle存储索引的也是如此,只不过是;索引由根节点、分支节点和叶子节点组成,包含和确定行实际位置的。
原创
发布博客 2024.04.28 ·
2458 阅读 ·
26 点赞 ·
1 评论 ·
20 收藏

Linux命令大全 以及搭建hadoop

这个网卡就代表本机,自身。ip address、ip a、ip addr、ip ad、ifconfig(需要先安装net-tools)查看到的比ip a系列的要详细些,能够查看到接收的包和传输的包。sed:Stream EDitor,流编辑器,可以按照特定规则按行编辑数据(sed是不处理原数据的,编辑完的行默认是打印到屏幕,所以sed运行完原文件内容是不变的)-ok 和-exec的作用相同,只不过以一种更为安全的模式来执行该参数所给出的命令,在执行每一个命令之前,都会给出提示,让用户来确定是否执行。
原创
发布博客 2024.04.28 ·
1114 阅读 ·
30 点赞 ·
2 评论 ·
29 收藏

Hive主要介绍

hive是基于 Hadoop平台操作 HDFS 文件的插件工具可以将结构化的数据文件映射为一张数据库表可以将 HQL 语句转换为 MapReduce 程序1.hive 是由驱动器组成,驱动器主要由4个组件组成(解析器、编译器、优化器、执行器)2.hive本身不存储数据,数据是存储在hdfs上3.hive的元数据默认是存储在detby数据库中,但是它支持一个客户端进行连接,为了支持多客户端连接,可将元数据存储在关系型数据库中(如mysql)
原创
发布博客 2024.04.25 ·
2199 阅读 ·
41 点赞 ·
3 评论 ·
53 收藏

Hive 数据倾斜

数据倾斜:数据分布不均匀,造成数据大量的集中到一点,造成数据热点。主要表现为任务进度长时间维持在 99%或者 100%的附近,查看任务监控页面,发现只有少量 reduce 子任务未完成,因为其处理的数据量和其他的 reduce 差异过大。单一 reduce 处理的记录数和平均记录数相差太大,通常达到好几倍之多,最长时间远大 于平均时长。根本原因就是大量相同的key被分配到一个reduce里,造成一个reduce任务累死了,但是其他的reduce任务闲死4.1重新分区(Repartitioning)
原创
发布博客 2024.04.24 ·
1273 阅读 ·
17 点赞 ·
1 评论 ·
10 收藏

Hive 中常用的函数以及数据类型

1.一进一出函数 UDF普通函数2.多进一出函数 UDAF聚合函数 Aggregation3.UDTF 表生成函数 explode一进多出。
原创
发布博客 2024.04.21 ·
1054 阅读 ·
14 点赞 ·
0 评论 ·
33 收藏

MapReduce 机理

1.hadoop 平台进程管理者文件系统的Namespace。它维护着文件系统树(filesystem tree)以及文件树中所有的文件和文件夹的元数据(metadata)。管理这些信息的文件有两个,分别是Namespace 镜像文件(Namespace image)和操作日志文件(edit log),这些信息被Cache在RAM中,当然,这两个文件也会被持久化存储在本地硬盘。
原创
发布博客 2024.04.16 ·
2388 阅读 ·
45 点赞 ·
0 评论 ·
34 收藏

2024 ETL开发公司面试题

发布资源 2024.04.14 ·
docx

Oracle 正则,开窗,行列转换

如果是range就会在第三行显示1000+1500+2500+2500=7500,第四行显示1000+1500+2500+2500=7500,因为第三行和第四行中的salary是一样的,同时又是按照range进行计算的,所以从第一行开始r无法判断并列行中的当前行是哪一行,所以直接将并列的数相加。在正则表达式中,使用量词(如。后向引用: 指把匹配出来的组引用到表达式本身其它地方,比如,在匹配HTML的标记时,我们匹配出一个<a>,我们要把匹配出来的a引用出来,用来找到</a>,这个时候就要用到反向引用。
原创
发布博客 2024.04.12 ·
1039 阅读 ·
27 点赞 ·
1 评论 ·
31 收藏

2024 SQL面试题二

发布资源 2024.04.09 ·
docx

2024 SQL面试题二

发布资源 2024.04.08 ·
pdf

Matplotlib

【代码】Matplotlib
原创
发布博客 2024.04.06 ·
114 阅读 ·
2 点赞 ·
1 评论 ·
0 收藏

Matplotlib

【代码】Matplotlib。
原创
发布博客 2024.04.06 ·
113 阅读 ·
3 点赞 ·
1 评论 ·
0 收藏

MatPlotlib基本

【代码】MatPlotlib基本。
原创
发布博客 2024.04.06 ·
103 阅读 ·
3 点赞 ·
1 评论 ·
0 收藏

Pandas 文件操作

【代码】Pandas 文件操作。
原创
发布博客 2024.04.06 ·
135 阅读 ·
3 点赞 ·
1 评论 ·
0 收藏
加载更多