- 博客(44)
- 收藏
- 关注
原创 shell
例:玩一个猜数字的游戏,系统会随机给一个1-10之间的整数,然后用户随机输入参数,判断与系统生成的数字是否一致,每次在猜不中的情况下,系统会根据你猜的数与实际生成的数做对比,提示你是偏大还是偏小,最多3次机会,猜中就立马退出。oracle的函数是需要return返回值,返回的是计算的结果,在shell脚本中,只能0-255的数字,返回的值不是结果,如果一定要设置返回值,返回的是当前的逻辑和操作是否正确。代表的是传入的第1个和第5个参数,假如只传入参数或者不够5个参数,函数的结果返回的是a值。
2026-03-11 14:22:50
421
1
原创 Linux常用命令
mkdir -p 可以创建原本不存在的路径。mv 7 /home 把文件7剪切到/home路径下。查看文件的详细信息:创建者,创建时间,文件的读写权限。cp -r 被复制的文件夹 复制到目标路径的位置。rm -r 文件夹的位置和名字 带有提示的删除。rm -rf 文件夹的位置和名字 强制性删除。在当前路径下查看其他路径的文件或者文件夹。mv 要被剪切的文件夹 被剪切到的位置。查看当前位置下有哪些文件或者文件夹。列出文件夹下所有的文件包括隐藏文件。在文件中指定删除文件多行的数据。
2026-03-10 14:22:04
219
原创 spark的shuffle原理及调优
当使⽤reduceByKey、groupByKey、sortByKey、countByKey、join、cogroup等操作的时候,会发⽣shuffle操作。 spark的shuffle实现:在DAG阶段以shuffle为界,划分stage,上游stage 做map task,每个map task将计算结果数据分成多份,每⼀份对应到下游stage的每个partition中,并将其临时写到磁盘,该过程就叫做shuffle write;下游stage叫做reduce task,每个reduce t
2026-03-06 15:22:44
334
原创 hive优化
如果未分区,那么每次都需要扫描全表例:对主表按dt(日期)和region(区域)进行二级分区选择高基数、常用于 WHERE 过滤的字段作为分区键。
2026-02-28 18:13:45
305
原创 spark优化
每次对一个RDD进行一个算子操作的时候,都会从头计算一遍RDD,然后再对这个RDD执行算子操作,这种性能太差了所以我们对这个RDD进行持久化,将RDD的数据保存在内存或者磁盘中,以后每次对这个RDD进行算子操作的时候,就不用重新计算,可以直接从内存或者磁盘中读取这个持久化RDD的数据,然后进行算子操作。
2026-02-28 17:54:51
364
原创 spark架构与原理
1) Driver App 是客户端驱动程序,也可以理解为客户端应用程序,用于将任务程序转换为RDD 和 DAG,并与 Cluster Manager 进行通信与调度。2) Cluster Manager 是 Spark 的集群管理器。它主要负责资源的分配与管理。3) Worker 是 Spark 的工作节点。Worker负责创建 Executor,将资源和任务进一步分配给 Executor, 然后同步资源信息给 Cluster Manager。4) Executor 是 Spark 任务的执行单元。
2026-02-28 16:46:40
488
原创 dolphinscheduler海豚调度器
http://{所在服务器IP}:12345/dolphinscheduler/ui。5、登录 dolphinscheduler UI。3、进入bin目录下。
2026-01-26 16:07:52
109
原创 gaussdb的基础命令
d table_name - 查看表结构。\dt - 列出当前数据库的所有表。\l - 列出所有数据库。\dn - 列出所有模式。\du - 列出所有用户。\q - 退出 gsql。2. 创建用户与数据库。1. 进入命令行终端。
2026-01-20 22:57:48
253
原创 Oracle,hive,gaussdb的区别
oracle高斯create or replace function 函数名(参数名 参数类型,..)return 返回值类型asbeginreturn 变量名;end;select 函数名(参数) from 表名create or replace function 函数名(参数名 参数类型,..)return 返回值类型asbegin return 变量名;end;select 函数名(参数) from 表名。
2026-01-20 22:54:20
969
原创 hive如何使用python脚本
举个栗子我们要用python脚本实现对hive的用户表解析出他的性别3、将本地idcard.txt里的内容加载到hive表中4、在本地编写python脚本: vim stu_info.py5、使用数据文件对python脚本进行校验7、在hive数据引用这个自定义函数,进行表格的查询
2026-01-16 11:43:22
235
1
原创 YARN工作流程
10)AM向RM根据切片数量申请运行MapTask容器。pplicationId和资源提交路径返回给。资源提交完毕后,AM向RM申请运行程序。控制MapTask的个数。,把AM放在container里面。程序提交到客户端所在的节点。job所需要的资源配置信息。程序将运行所需资源提交到。将用户的请求初始化成一个。)RM找到最近的一个。
2026-01-14 21:10:00
394
原创 修改jupyter 的默认路径
1、进入cmd,输入jupyter notebook --generate-config,就能查到jupyter的配置文件。修改NotebookApp.notebook_dir,去掉前面的#,在引号中添加自己要修改的路径,最后保存退出。3、找到jupyter的图表,右键-->属性,将目标中的"%USERPROFILE% /"删掉,改为自己的路径。2、进入到这个路径C:\Users\Lenovo\.jupyter。用文本文档打开这个.py文件。起始位置也改为自己的路径。
2026-01-14 09:29:42
208
原创 在hive中实现拉链表的更新和merge into
创建一个临时表,用于存储更新后的数据。也就是需要更新的目标表。也就是数据的对比来源表。如果数据存在,就进行。可以按照以下步骤操作。
2026-01-06 13:33:40
673
原创 如何启动azkaban
如果在/opt/module/azkaban/azkaban-exec目录下出现executor.port文件,说明 启动成功。6、下面激活executor,要替换自己的IP。5、启动executor server。4、首先进入azkaban-exec。1、首先进入azkaban-web。出现下面圈起来的就代表启动前端成功。出现这个界面,代表前后端都启动成功。3、接着查看最新生成的日志文件。出现success表示启动成功。账号:azkabin。密码:azkaban。
2026-01-02 11:15:26
346
原创 sqoop的导入导出
现在要将qfdb中的表抽取到hive的aa库里面注意:如果是其他的关系型数据库抽取到hive数据库中,不需要新建表格,hive会自动的创建表格,oracle表名要大写出现这个就代表执行成功了{{--提示报错如果出现这个错--Output directory hdfs://localhost:9000/user/root/emp already exists需要把这个文件删除:hdfs dfs -rm -r /user/root/emp删除之后再次执行sqoop指令:或者在导入的时候加上删除目录的语句
2025-12-30 21:26:02
440
原创 HDFS读写数据的流程
若通过检查,直接先将操作写入EditLog,并返回输出流对象(注:WAL,write ahead log,先写Log,再写内存,因为EditLog记录的是最新的HDFS客户端执行所有的写操作。7、读取完一个block都会进行checksum验证,如果读取DataNode时出现错误,客户端会通知NameNode,然后再从下一个拥有该block副本的DataNode继续读。6、当读完列表的block后,若文件读取还没有结束,客户端会继续向NameNode获取下一批的block列表;9、写完数据,关闭输输出流.
2025-12-29 20:13:02
605
1
原创 如何将Linux本地的文件上传到hive表中
2、在hive创建一个包含数据类型和分隔符的表。1、先在Linux本地创建一个文件。我的路径是\root\2522。3、将本地数据导入hive中。
2025-12-26 09:42:46
170
原创 ORA-01861: 文字与格式字符串不匹配
需要用to_date(to_char(time, 'yyyy-MM-dd'), 'yyyy-mm-dd')如果仅仅用to_date(RQ,'yyyy-mm-dd')转格式是不行的,来转换,这样问题就解决了。
2025-05-20 09:27:03
1003
原创 UiBot安装chrome扩展时存在已打开的Microsoft Edge浏览器,无法执行 安装
存在已打开的Microsoft Edge浏览器,无法执行 安装
2025-01-07 15:48:35
987
原创 Oracle增删改查
Oracle是一种关系数据库管理系统,可以进行增删改查操作。以上是基本的增删改查操作,可以根据具体的表结构和需求进行相应的操作。
2024-09-09 17:36:50
1014
原创 基于python的大学生就业推荐系统
网络招聘,一般也称为在线招聘或者是电子招聘,是指在借助互联网的应用,实现企业单位人事部完成招聘工作的一种新型模式,即企业或者事业单位通过企业的官方网站或者互联网的第三方招聘信息发布平台如智联、boss直聘、前程无忧等发布相应的招聘信息,然后通过电子邮件或者平台内部的简历数据库搜集应聘者的应聘信息,接着对简历进行初步筛选,再根据岗位实际需要安排相应的笔试和面试,最后确定聘用适合企业招聘岗位要求的岗位人选。
2024-06-18 10:36:27
2448
2
原创 解决pymysql.err.OperationalError: (1130, “###‘ is not allowed to connect to this MySQL server“)
解决pymysql.err.OperationalError: (1130, "###' is not allowed to connect to this MySQL server")
2024-04-07 15:27:02
1321
原创 解决Error response from daemon: driver failed programming external connectivity on endpoint nginx01
Error response from daemon: driver failed programming external connectivity on endpoint nginx01 (522f7911bc29a70543768b995200d8e217fd65561632fabf55b29086b46acfba): Error starting userland proxy: listen tcp 0.0.0.0:80: bind: address already in use
2024-03-13 16:07:57
1781
原创 解决Unable to correct problems ,you have held broken packages
当用sudo apt install 就会出现Unable to correct problems ,you have held broken packages。如果出现sudo :aptitude:command not found,则先安装aptitude。这时候我们可以尝试用aptitude安装。
2023-09-04 16:08:34
1106
1
原创 解决Problem unlinking the file /var/cache/apt/srcpkgcache.bin
解决方法:是因为权限不够,在前面加个sudo以管理员身份运行就好了。
2023-09-04 15:53:37
1504
1
原创 解决urllib3 v2.0 only supports OpenSSL 1.1.1+, currently the ssl module is compiled with OpenSSL 1.
解决urllib3 v2.0 only supports OpenSSL 1.1.1+, currently the ssl module is compiled with OpenSSL 1.
2023-08-17 16:51:16
648
1
finalshell-windows-x64
2025-12-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅