自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

码不停歇的博客

分享学习工作经验

  • 博客(114)
  • 收藏
  • 关注

原创 sqoop导入oracle报错,missing in or out parameter

报错原因: 数据导入oracle,表名字段名要一定要大写。

2024-06-24 21:28:12 135

原创 计算加班时长

【代码】计算加班时长。

2024-06-24 21:25:39 216

原创 二分查找法

【代码】二分查找法。

2024-06-20 21:39:11 92

原创 华为OD机试:42 不爱施肥的小布

【代码】华为OD机试:42 不爱施肥的小布。

2024-06-20 21:09:44 224

原创 HDFS架构

NameNode不存储实际数据,而是维护着所有文件和数据块的元数据信息,包括文件的名称、文件的目录结构、文件对应的块信息及块所在的DataNode等。DataNode会定期向NameNode发送心跳信号和块报告,以保持其在集群中的活性状态,并告知NameNode其存储的数据块信息。总结来说,HDFS架构通过NameNode进行元数据管理,利用大量的DataNode进行数据存储,通过引入Secondary NameNode和HA机制增强系统的可靠性和扩展性,满足了大数据环境下对大规模数据存储和访问的需求。

2024-06-15 12:00:01 400

原创 华为OD机试:41 静态代码扫描服务

【代码】华为OD机试:41 静态代码扫描服务。

2024-06-15 11:46:53 428

原创 spark与flink的wordcount示例

【代码】spark与flink的wordcount示例。

2024-06-13 21:26:45 400 1

原创 华为OD机试:40 知识图谱新词挖掘

【代码】华为OD机试:40 知识图谱新词挖掘。

2024-06-13 20:55:03 195

原创 华为OD机试: 39 查找充电设备组合

【代码】华为OD机试: 39 查找充电设备组合。

2024-06-11 21:18:09 189

原创 华为OD机试: 38 寻找关键钥匙

【代码】华为OD机试: 38 寻找关键钥匙。

2024-06-11 20:38:18 102

原创 华为OD机试: 37寻找密码

【代码】华为OD机试: 37寻找密码。

2024-06-04 21:58:17 474

原创 sed批量修改shell脚本内容

需求:邮件服务器脚本ip做了切换,由原先的11.22.33.44,切换为11.22.33.55。需要把所有使用了11.22.33.44该ip的脚本改为11.22.33.55。

2024-06-04 21:56:43 300

原创 git的使用

git reset --hard HEAD^ 回退到上一次。git reset --hard HEAD~n 回退到n次。git reset --hard 版本号 穿越到相应版本。创建分支同时切换 git checkout -b 分支名。git reset 文件名 撤销文件缓存区的状态。切换分支 git checkout 分支名。创建分支 git branch 分支名。查看分支 git branch -v。合并分支 git merge 分支名。

2024-05-31 22:21:03 295

原创 idea快捷键

代码跟踪:Ctrl+点击某个类或方法 回到刚刚的位置:Alt+<–打开某个类型的源代码:Ctrl+Shift+T + 输入类型名。快速格式化:Ctrl +Shift + F(format)打开的多个源文件切换:Alt + ←, Alt + →。快速导包:Ctrl + Shift + O。取消多行注释:Ctrl +Shift +向下复制一行:Ctrl + Alt + ↓。向上复制一行:Ctrl + Alt + ↑。多行注释:Ctrl + Shift + /Ctrl+shift+L 格式化代码。

2024-05-31 22:05:33 580

原创 领域数据模型建设步骤

次数,时长,金额,设备数,用户数,app/item数。业务过程:一系列结构化的可测量的活动:如app相关业务的下载,安装,使用,更新,卸载等活动分为公共业务过程和特有业务过程。一致性维度:app版本,歌曲,内容集,专辑,mv艺术家,商品,年龄,性别,日期…修饰词:针对原子指标,在维度属性枚举值内的限定,例如成功,云端,本地等条件。dwd(明细层):脱敏,异常,解析,维度建模,维度退化。1.数据调研和业务调研,识别业务过程,实体,关键指标。

2024-05-29 20:52:44 502

原创 spark相关知识

Driver向集群管理器申请资源,启动Executor,并向Executor发送程序代码和文件,在Executor上执行任务,执行结果返回任务控制节点或写到HDFS和其他数据库。Spark的设计遵循“一个软件栈满足不同应用场景”的理念,逐渐形成了一套完整的生态系统,既能够提供内存计算框架,也可以支持SQL即席查询、实时流式计算、机器学习和图计算等。窄依赖表现为一个父RDD的分区对应于一个子RDD的分区,或多个父RDD的分区对应于一个子RDD的分区。运行速度快,易使用,强大的技术栈,集成性好。

2024-05-29 20:38:36 490

原创 Linux相关知识

​ 修改ip地址 vim /etc/sysconfig/network-scripts/ifcfg-eth0。echo [-e] history ln [原文件或目录] [软链接名]/dev 类似Windows的设备管理器,所有硬件用文件的形式存储。tar -zxvf xxx.tar.gz -C 解压到指定的目录。unzip xxx.zip [-d] 解压后文件的存放目录。/var 习惯将经常被修改的目录放这里,包括各种日志文件。tar -zcvf xxx.tar.gz 要打包的内容。

2024-05-27 21:07:17 891

原创 flink读kafka写oracle数据库

场景:从kafka读数据,通过jdbc写入oracle。#往kafka测试主题写入数据。–创建oracle测试表。

2024-05-27 21:04:37 249

原创 传统关系型数据库与hive的区别

综上所述,数据库和Hive各有侧重,适用于不同的业务场景和数据处理需求。数据库更适用于需要低延迟、高并发事务处理的场景,而Hive则更适合大数据批量分析和数据仓库应用。数据库和Hive之间存在本质的区别,主要体现在设计目的、数据处理方式、数据存储、查询延迟、数据更新能力、以及适用场景等方面。

2024-05-24 21:19:55 637

原创 华为OD机试:36 学校的位置

【代码】华为OD机试:36 学校的位置。

2024-05-24 21:12:35 630

原创 星型模型和雪花模型的区别

选择星型模型还是雪花模型通常取决于具体的应用需求、数据量、查询性能要求以及对数据冗余的容忍度。在对查询性能要求极高且可以接受一定冗余的OLAP环境中,星型模型更为常见。而在对数据完整性和存储空间敏感,且查询复杂度可以接受较低性能损失的情况下,雪花模型可能更合适。实践中,星型模型因其简单性和高效查询性能,在数据仓库设计中更为广泛采用。

2024-05-23 21:12:27 545

原创 flink读kafka写mysql数据库

场景:从kafka读数据,通过jdbc写入mysql。#往kafka测试主题写入数据。–创建mysql测试表。

2024-05-23 21:09:23 551 1

原创 redis的shell客户端操作

【代码】redis的shell客户端操作。

2024-05-21 21:01:16 219

原创 sql日期函数统计日月年订单数

场景:汇集日月年的订单数,分别在mysql和oracle数据库实现相同的效果。

2024-05-21 20:41:56 370

原创 维度建模方法论

KimBall提出的维度建模理论,从分析决策的需求出发构建模型,以事实表为中心,选取特定的维度,构建业务总线矩阵。OLAP基于数据仓库 ,适合海量数据,批量查询,对实时性要求不高的场景。高层设计-》详细模型-》模型审查,再设计和验证-》ETL设计和开发。实体关系模型,遵循3范式,属性唯一,部分函数依赖,传递函数依赖。数仓分层:ods-》dwd、dim-》dws-》ads。业务架构设计-》模型设计-》数据研发-》数据服务-建模过程分为:业务过程-》粒度-》维度-》事实。统计型:人均,日均,行业平均。

2024-05-16 20:26:50 264

原创 hive建表使用不同的存储格式测试

场景:hive常见的格式有TextFile,SequenceFile,ORC,Parquet,RCFile等。示例:分别建5张表,为以上5种存储格式,并分别往里写入1000万条数据,查看其各自占用的存储空间。

2024-05-16 20:22:38 602

原创 hive动态分区

在insert语句中, 动态分区的字段必须放在select语句的末尾,hive会根据这个字段的值来创建分区目录。hive动态分区概念:允许插入数据到分区表时,根据插入的数据内容自动创建相应的分区。1.启用动态分区功能。

2024-05-15 22:23:40 376

原创 spark自定义函数实现

场景:由于系统函数无法满足实际开发需求,需要通过自定义函数来实现。

2024-05-15 22:22:23 426

原创 kafka基础知识

Range分配策略:此策略将分区按照范围分配给消费者,旨在尽可能平均地分配分区给消费者,以确保负载均衡。topic(分区,副本,topic输入输出流量,topic每秒输入的消息条数)RoundRobin分配策略:此策略以轮询的方式分配置分区给消费者。kafka日志保存位置及消息保存时间。生产端:消息发送成功但响应失败。如何处理数据积压问题?扩大kafka集群规模。消费端:偏移量提交失败。如何看数据积压问题?为什么能做到高并发?

2024-05-14 20:41:18 307

原创 hdfs的api操作

场景:测试idea本地连接hdfs集群并创建目录,上传本地文件。

2024-05-14 20:38:31 170

原创 批量获取oracle库存储过程

场景:需要获取oracle库下的存储过程做备份。示例:获取单个存储过程,sql实现如下。

2024-05-13 21:27:51 403

原创 高斯数据库创建存储过程

并且OUT和INOUT模式的参数不能用在RETURNS TABLE的过程定义中。argument_name和argmode的顺序没有严格要求,推荐按照argument_name、argmode、argument_type的顺序使用。当在存储过程体中进行创建用户等涉及用户密码相关操作时,系统表及csv日志中会记录密码的明文。取值范围:字符串,要符合标识符的命名规范。取值范围:字符串,要符合标识符的命名规范。当存在同名的存储过程时,替换原来的定义。创建的存储过程名字,可以带有模式名。取值范围:可用的数据类型。

2024-05-13 21:23:03 729 1

原创 高斯数据库创建函数的语法

该函数只对用户定义的C函数生效,声明函数是在保护模式还是非保护模式下执行。如果函数声明为FENCED模式,则函数在新fork的进程执行,这样函数的异常不会影响CN或者DN进程。link_symbol指定了该函数的链接符号,也就是该函数在C代码中的函数名称。表示该函数不能修改数据库,对相同参数值,在同一次表扫描里,该函数的返回值不变,但是返回值可能在不同SQL语句之间变化。◾对于STABLE/VOLATILE类型的函数,仅当函数的属性是SHIPPABLE的时候,函数可以下推到DN执行。

2024-05-11 21:08:47 1312

原创 hdfs磁盘清理历史数据

统计warehouse目录下的磁盘使用量(目前表都是建在该路径下)#hdfs回收站会保留1天数据,过期会自动清理, 也可手动清理。#统计test目录下磁盘使用量的表,清理该测试路径的数据。#统计bak目录下磁盘使用量的表,取前30,清理大表。

2024-05-11 21:05:59 265

原创 shell基础知识

4.awk [选项参数] ‘pattern1{action1} pattern2{action2}’ filename。[ condition ] (注意condition前后要有空格,条件非空即为true)-u u为unique的缩写,即如果出现相同的数据,只出现一行。​ while [ 条件判断式] | ((表达式))@ (把每个参数区分对待) 代表命令行中所有的参数。$n $0代表该脚本名称 $1-9代表1-9的参数。​ 基本语法: read (选项) (参数)

2024-05-10 21:02:13 641

原创 explain分析sql执行计划

若指定了ANALYZE选项,则该语句会被执行,然后根据实际的运行结果显示统计数据,包括每个计划节点内时间总开销(毫秒为单位)和实际返回的总行数。这对于判断计划生成器的估计是否接近现实非常有用。执行计划将显示SQL语句所引用的表会采用什么样的扫描方式,如:简单的顺序扫描、索引扫描等。如果引用了多个表,执行计划还会显示用到的JOIN算法。执行计划的最关键的部分是语句的预计执行开销,这是计划生成器估算执行该语句将花费多长的时间。显示SQL语句的执行计划。explain功能描述。

2024-05-10 20:58:00 255

原创 hive自定义函数

当Hive的内置函数不能满足需要时,可以通过编写用户自定义函数UDF(User-Defined Functions)插入自己的处理代码并在查询中使用它们。•用户定义表生成函数UDTF(User-Defined Table-Generating Functions),用于操作单个输入行,产生多个输出行。•用户定义聚集函数UDAF(User-Defined Aggregating Functions),用于接受多个输入数据行,并产生一个输出数据行。•普通的UDF,用于操作单个数据行,且产生一个数据行作为输出。

2024-05-09 21:18:44 250 1

原创 hbase建表预分区的2种方法

Hbase自带了两种pre-split的算法,分别是HexStringSplit和UniformSplit。以下案例建表并设置预分区,分别测试以下2种方法。1.HexStringSplit算法。2.UniformSplit算法。示例:rowkey以日期为前缀。都分发到对应的region。

2024-05-09 21:12:15 679

原创 高斯行存表与列存表的区别

2.通过shell脚本批量查询对应的建表语句,orientation=column 过滤列存表(脚本略)行存储是指将表按行存储到硬盘分区上,列存储是指将表按列存储到硬盘分区上。默认情况下,创建的表为行存储。行、列存储模型各有优劣,建议根据实际情况选择。选择(Selection)时即使只涉及某几列,所有数据也都会被读取。1.没有找到系统表或视图有保存行存,列存信息的(略)•投影(Projection)很高效。•选择完成时,被选择的列要重新组装。•查询时只有涉及到的列会被读取。•任何列都能作为索引。

2024-05-08 20:53:30 451

原创 高斯数据库自定义函数

需求:自定义一个myUpper函数实现系统函数upper的效果。

2024-05-08 20:49:18 238

(43条消息) 华为OD机试真题2023(JAVA&JS)_华为机试真题_若博豆的博客-CSDN博客.mhtml

(43条消息) 华为OD机试真题2023(JAVA&JS)_华为机试真题_若博豆的博客-CSDN博客.mhtml

2024-01-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除