自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 收藏
  • 关注

原创 shell

例:玩一个猜数字的游戏,系统会随机给一个1-10之间的整数,然后用户随机输入参数,判断与系统生成的数字是否一致,每次在猜不中的情况下,系统会根据你猜的数与实际生成的数做对比,提示你是偏大还是偏小,最多3次机会,猜中就立马退出。oracle的函数是需要return返回值,返回的是计算的结果,在shell脚本中,只能0-255的数字,返回的值不是结果,如果一定要设置返回值,返回的是当前的逻辑和操作是否正确。代表的是传入的第1个和第5个参数,假如只传入参数或者不够5个参数,函数的结果返回的是a值。

2026-03-11 14:22:50 421 1

原创 Linux常用命令

mkdir -p 可以创建原本不存在的路径。mv 7 /home 把文件7剪切到/home路径下。查看文件的详细信息:创建者,创建时间,文件的读写权限。cp -r 被复制的文件夹 复制到目标路径的位置。rm -r 文件夹的位置和名字 带有提示的删除。rm -rf 文件夹的位置和名字 强制性删除。在当前路径下查看其他路径的文件或者文件夹。mv 要被剪切的文件夹 被剪切到的位置。查看当前位置下有哪些文件或者文件夹。列出文件夹下所有的文件包括隐藏文件。在文件中指定删除文件多行的数据。

2026-03-10 14:22:04 219

原创 spark的shuffle原理及调优

当使⽤reduceByKey、groupByKey、sortByKey、countByKey、join、cogroup等操作的时候,会发⽣shuffle操作。 spark的shuffle实现:在DAG阶段以shuffle为界,划分stage,上游stage 做map task,每个map task将计算结果数据分成多份,每⼀份对应到下游stage的每个partition中,并将其临时写到磁盘,该过程就叫做shuffle write;下游stage叫做reduce task,每个reduce t

2026-03-06 15:22:44 334

原创 hive优化

如果未分区,那么每次都需要扫描全表例:对主表按dt(日期)和region(区域)进行二级分区选择高基数、常用于 WHERE 过滤的字段作为分区键。

2026-02-28 18:13:45 305

原创 spark优化

每次对一个RDD进行一个算子操作的时候,都会从头计算一遍RDD,然后再对这个RDD执行算子操作,这种性能太差了所以我们对这个RDD进行持久化,将RDD的数据保存在内存或者磁盘中,以后每次对这个RDD进行算子操作的时候,就不用重新计算,可以直接从内存或者磁盘中读取这个持久化RDD的数据,然后进行算子操作。

2026-02-28 17:54:51 364

原创 spark架构与原理

1) Driver App 是客户端驱动程序,也可以理解为客户端应用程序,用于将任务程序转换为RDD 和 DAG,并与 Cluster Manager 进行通信与调度。2) Cluster Manager 是 Spark 的集群管理器。它主要负责资源的分配与管理。3) Worker 是 Spark 的工作节点。Worker负责创建 Executor,将资源和任务进一步分配给 Executor, 然后同步资源信息给 Cluster Manager。4) Executor 是 Spark 任务的执行单元。

2026-02-28 16:46:40 488

原创 spark配置

/如何查看JDK版本:echo $JAVA_HOME。

2026-02-02 19:15:52 930

原创 dolphinscheduler海豚调度器

http://{所在服务器IP}:12345/dolphinscheduler/ui。5、登录 dolphinscheduler UI。3、进入bin目录下。

2026-01-26 16:07:52 109

原创 hive怎么实现连续登录

【代码】hive怎么实现连续登录。

2026-01-26 13:13:10 98

原创 什么是第一范式、第二范式、第三范式

(字段不可再分)(消除部分依赖 -> 只描述一件事)(消除传递依赖 -> 属性直接描述主键)

2026-01-21 09:49:08 577

原创 gaussdb的基础命令

d table_name - 查看表结构。\dt - 列出当前数据库的所有表。\l - 列出所有数据库。\dn - 列出所有模式。\du - 列出所有用户。\q - 退出 gsql。2. 创建用户与数据库。1. 进入命令行终端。

2026-01-20 22:57:48 253

原创 Oracle,hive,gaussdb的区别

oracle高斯create or replace function 函数名(参数名 参数类型,..)return 返回值类型asbeginreturn 变量名;end;select 函数名(参数) from 表名create or replace function 函数名(参数名 参数类型,..)return 返回值类型asbegin return 变量名;end;select 函数名(参数) from 表名。

2026-01-20 22:54:20 969

原创 hive如何使用python脚本

举个栗子我们要用python脚本实现对hive的用户表解析出他的性别3、将本地idcard.txt里的内容加载到hive表中4、在本地编写python脚本: vim stu_info.py5、使用数据文件对python脚本进行校验7、在hive数据引用这个自定义函数,进行表格的查询

2026-01-16 11:43:22 235 1

原创 YARN工作流程

10)AM向RM根据切片数量申请运行MapTask容器。pplicationId和资源提交路径返回给。资源提交完毕后,AM向RM申请运行程序。控制MapTask的个数。,把AM放在container里面。程序提交到客户端所在的节点。job所需要的资源配置信息。程序将运行所需资源提交到。将用户的请求初始化成一个。)RM找到最近的一个。

2026-01-14 21:10:00 394

原创 修改jupyter 的默认路径

1、进入cmd,输入jupyter notebook --generate-config,就能查到jupyter的配置文件。修改NotebookApp.notebook_dir,去掉前面的#,在引号中添加自己要修改的路径,最后保存退出。3、找到jupyter的图表,右键-->属性,将目标中的"%USERPROFILE% /"删掉,改为自己的路径。2、进入到这个路径C:\Users\Lenovo\.jupyter。用文本文档打开这个.py文件。起始位置也改为自己的路径。

2026-01-14 09:29:42 208

原创 在hive中实现拉链表的更新和merge into

创建一个临时表,用于存储更新后的数据。也就是需要更新的目标表。也就是数据的对比来源表。如果数据存在,就进行。可以按照以下步骤操作。

2026-01-06 13:33:40 673

原创 如何启动azkaban

如果在/opt/module/azkaban/azkaban-exec目录下出现executor.port文件,说明 启动成功。6、下面激活executor,要替换自己的IP。5、启动executor server。4、首先进入azkaban-exec。1、首先进入azkaban-web。出现下面圈起来的就代表启动前端成功。出现这个界面,代表前后端都启动成功。3、接着查看最新生成的日志文件。出现success表示启动成功。账号:azkabin。密码:azkaban。

2026-01-02 11:15:26 346

原创 sqoop的导入导出

现在要将qfdb中的表抽取到hive的aa库里面注意:如果是其他的关系型数据库抽取到hive数据库中,不需要新建表格,hive会自动的创建表格,oracle表名要大写出现这个就代表执行成功了{{--提示报错如果出现这个错--Output directory hdfs://localhost:9000/user/root/emp already exists需要把这个文件删除:hdfs dfs -rm -r /user/root/emp删除之后再次执行sqoop指令:或者在导入的时候加上删除目录的语句

2025-12-30 21:26:02 440

原创 HDFS读写数据的流程

若通过检查,直接先将操作写入EditLog,并返回输出流对象(注:WAL,write ahead log,先写Log,再写内存,因为EditLog记录的是最新的HDFS客户端执行所有的写操作。7、读取完一个block都会进行checksum验证,如果读取DataNode时出现错误,客户端会通知NameNode,然后再从下一个拥有该block副本的DataNode继续读。6、当读完列表的block后,若文件读取还没有结束,客户端会继续向NameNode获取下一批的block列表;9、写完数据,关闭输输出流.

2025-12-29 20:13:02 605 1

原创 如何将Linux本地的文件上传到hive表中

2、在hive创建一个包含数据类型和分隔符的表。1、先在Linux本地创建一个文件。我的路径是\root\2522。3、将本地数据导入hive中。

2025-12-26 09:42:46 170

原创 如何启动Gaussdb并连接到DBeaver

gaussdb

2025-12-25 10:03:39 284

原创 如何启动hive并连接到DBeaver

hive连接

2025-12-25 09:43:09 144

原创 Oracle通过JOB 实现存储过程自动执行

在PLSQL写完存储过程并编译成功之后。

2025-07-10 14:55:09 261

原创 PLSQL插件使用方法

PLSQL插件使用方法

2025-06-28 15:38:57 484

原创 ORA-01861: 文字与格式字符串不匹配

需要用to_date(to_char(time, 'yyyy-MM-dd'), 'yyyy-mm-dd')如果仅仅用to_date(RQ,'yyyy-mm-dd')转格式是不行的,来转换,这样问题就解决了。

2025-05-20 09:27:03 1003

原创 uibot实现复制粘贴

uibot实现复制粘贴

2025-01-16 14:17:03 536

原创 UiBot安装chrome扩展时存在已打开的Microsoft Edge浏览器,无法执行 安装

存在已打开的Microsoft Edge浏览器,无法执行 安装

2025-01-07 15:48:35 987

原创 EXCEL行转列

Excel行转列

2024-12-30 12:05:49 277

原创 Oracle增删改查

Oracle是一种关系数据库管理系统,可以进行增删改查操作。以上是基本的增删改查操作,可以根据具体的表结构和需求进行相应的操作。

2024-09-09 17:36:50 1014

原创 基于python的大学生就业推荐系统

网络招聘,一般也称为在线招聘或者是电子招聘,是指在借助互联网的应用,实现企业单位人事部完成招聘工作的一种新型模式,即企业或者事业单位通过企业的官方网站或者互联网的第三方招聘信息发布平台如智联、boss直聘、前程无忧等发布相应的招聘信息,然后通过电子邮件或者平台内部的简历数据库搜集应聘者的应聘信息,接着对简历进行初步筛选,再根据岗位实际需要安排相应的笔试和面试,最后确定聘用适合企业招聘岗位要求的岗位人选。

2024-06-18 10:36:27 2448 2

原创 解决pymysql.err.OperationalError: (1130, “###‘ is not allowed to connect to this MySQL server“)

解决pymysql.err.OperationalError: (1130, "###' is not allowed to connect to this MySQL server")

2024-04-07 15:27:02 1321

原创 解决Error response from daemon: driver failed programming external connectivity on endpoint nginx01

Error response from daemon: driver failed programming external connectivity on endpoint nginx01 (522f7911bc29a70543768b995200d8e217fd65561632fabf55b29086b46acfba): Error starting userland proxy: listen tcp 0.0.0.0:80: bind: address already in use

2024-03-13 16:07:57 1781

原创 解决Unable to correct problems ,you have held broken packages

当用sudo apt install 就会出现Unable to correct problems ,you have held broken packages。如果出现sudo :aptitude:command not found,则先安装aptitude。这时候我们可以尝试用aptitude安装。

2023-09-04 16:08:34 1106 1

原创 解决Problem unlinking the file /var/cache/apt/srcpkgcache.bin

解决方法:是因为权限不够,在前面加个sudo以管理员身份运行就好了。

2023-09-04 15:53:37 1504 1

原创 解决sudo: vim:command not find

这是使用vim命令时没有安装vim造成的,

2023-09-04 15:46:10 834 1

原创 解决urllib3 v2.0 only supports OpenSSL 1.1.1+, currently the ssl module is compiled with OpenSSL 1.

解决urllib3 v2.0 only supports OpenSSL 1.1.1+, currently the ssl module is compiled with OpenSSL 1.

2023-08-17 16:51:16 648 1

原创 selenium抓取苏宁图书

selenium绕过js,实现滚动条自动向下滑动,抓取苏宁图书。

2023-04-21 10:15:35 153

原创 selenium实现滑块滑动

我选取 https://www.helloweba.net/demo/2017/unlock/ 这个网站为例。

2023-04-21 10:08:40 1109

原创 selenium实现超级鹰自动登录

selenium实现超级鹰自动登录

2023-04-18 21:16:07 344 1

原创 爬虫学习—小破站单页视频爬取

B站爬取单页视频

2023-04-01 13:03:04 471

FileZilla-3.17.0.0-win64-setup

用于连接Linux和Windows系统

2025-12-18

putty-V0.63.0.0.43510830

putty_V0.63.0.0.43510830

2025-12-18

finalshell-windows-x64

FinalShell 是一款免费的国产的集 SSH 工具、服务器管理、远程桌面加速的良心软件,同时支持 Windows,macOS,Linux,它不单单是一个 SSH 工具,完整的说法应该叫一体化的的服务器,网络管理软件,在很大程度上可以免费替代 XShell,是国产中不多见的良心产品,具有免费海外服务器远程桌面加速,ssh 加速,双边 tcp 加速,内网穿透等特色功能。 FinalShell是一款一体化的的服务器,网络管理软件,软件支持多标签、批量服务器管理、自定义命令参数、SSH加速等功能,不仅是SSH客户端,还是功能强大的开发,运维工具,充分满足开发,运维需求。

2025-12-16

fiddler抓包工具

fiddler抓包工具

2025-07-29

PLSQL Developer 13,32位

PLSQL Developer 13

2025-06-28

sqlyog 用于连接数据库,只用于MySQL

sqlyog 用于连接数据库,只用于MySQL

2025-04-14

PLSQL中文插件,直接解压放在目录下面就可以用

PLSQL中文插件,直接解压放在目录下面就可以用

2025-04-01

instantclient-11-2,用于连接Oracle

instantclient_11_2,用于连接Oracle

2025-04-01

Sinpaste截图软件

可以很方便订在桌面上,编辑或者进行其他操作

2025-04-01

CnPlugin插件,用于PLSQL

CnPlugin插件,用于PLSQL

2025-04-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除