至轻云-作业流类型

作业流类型

查看作业列表

点击作业流的名称,进入作业编辑列表

20241220152842

新建作业

点击圆框加号创建新作业
作业名称在作业流中唯一

20240518103431

作业类型包括:
  • Jdbc执行作业: 选择数据源,执行sql返回提交日志
  • Jdbc查询作业: 选择数据源,执行sql返回提交日志数据返回
  • Prql查询作业: 选择数据源,执行prql返回提交日志运行结果,prql网址:https://prql-lang.org/
  • SparkSql查询作业: 选择计算集群,执行sparksql返回提交日志运行结果运行日志
  • SparkSql容器作业: 选择计算容器,执行sparksql返回提交日志运行结果
  • 数据同步作业: 选择计算集群,实现将A表数据同步到B表中
  • bash作业: 选择计算集群中的一个节点,执行bash脚本
  • python作业: 选择计算集群中的一个节点,执行python脚本
  • 自定义作业: 选择计算集群,提交资源中心的作业类型的jar文件,执行用户自定义的jar包
  • 接口调用作业: 可视化界面,让用户调用POSTGET接口
  • Excel导入作业: 选择计算集群,提交资源中心的Excel类型的文件,同步到执行的表中
Jdbc执行作业

选择jdbc执行作业类型

  • 名称: 必填,作业流内名称唯一
  • 类型: 必填,数据源的类型
  • 数据源: 必填,选择执行sql的数据源
  • 备注: 非必填

20241220153214

20240518103727

作业配置,支持数据源切换

20240518103914

点击运行,在日志中可以得到sql执行语句和每条sql的运行状态

20240518104046

Jdbc查询作业

选择Jdbc查询作业类型

  • 名称: 必填,作业流内名称唯一
  • 类型: 必填,数据源的类型
  • 数据源: 必填,选择查询sql的数据源
  • 备注: 非必填

20241220153501

20240518104136

运行成功后,会多出一个数据返回的tab,可看查询返回的具体数据

20240518104153

Prql查询作业

选择Prql查询作业类型

  • 名称: 必填,作业流内名称唯一
  • 类型: 必填,数据源的类型
  • 数据源: 必填,选择查询prql的数据源
  • 备注: 非必填

prql官网说明: https://prql-lang.org/

20241220153654

提交日志中会打印,真实执行的sql语句,并返回运行结果

20241220153725

SparkSql查询作业

选择SparkSql查询作业类型

  • 名称: 必填,作业流内名称唯一
  • 计算集群: 必填,指定需要提交作业运行的计算集群
  • 是否连接hive: 必填,默认是不选中
  • Hive数据源: 必填,如果开启连接hive,则需要选择一个可用的hive数据源
  • 备注: 非必填

20241220153837

SparkSql查询作业支持计算集群切换,支持hive数据源切换,支持资源等级切换,函数配置,依赖配置

20241220154240

资源等级说明
  • 高: 8GB
  • 中: 4GB
  • 低: 2GB

支持高级配置SparkConfig,配置参考链接: https://spark.apache.org/docs/3.4.1/configuration.html

20241220154441

配置样例

可点击左侧的按钮,放大编辑

{
  "hive.metastore.uris": "thrift://127.0.0.1:9083",
  "spark.cores.max": "1",
  "spark.driver.cores": "1",
  "spark.driver.extraJavaOptions": "-Dfile.encoding=utf-8",
  "spark.driver.memory": "1g",
  "spark.executor.cores": "1",
  "spark.executor.extraJavaOptions": "-Dfile.encoding=utf-8",
  "spark.executor.instances": "1",
  "spark.executor.memory": "2g",
  "spark.sql.autoBroadcastJoinThreshold": "-1",
  "spark.sql.legacy.timeParserPolicy": "LEGACY",
  "spark.sql.parquet.datetimeRebaseModeInRead": "LEGACY",
  "spark.sql.parquet.datetimeRebaseModeInWrite": "LEGACY",
  "spark.sql.parquet.enableVectorizedReader": "false",
  "spark.sql.parquet.int96RebaseModeInRead": "LEGACY",
  "spark.sql.parquet.int96RebaseModeInWrite": "LEGACY",
  "spark.sql.parquet.writeLegacyFormat": "true",
  "spark.sql.storeAssignmentPolicy": "LEGACY"
}

20241220154649

点击工具栏运行按钮,弹出提交日志,可查看作业运行的实时情况

20240518104732

运行成功后,日志中提示执行成功

20240518104808

运行成功后,点击数据返回,查看sparkSql执行的返回数据

20240518104823

运行后,点击运行日志,查看SparkSql作业执行的日志,可通过日志内容排查问题

20240518104837

SparkSql容器作业

注意!!!SparkSql容器作业比SparkSql查询作业快,支持秒级查询数据
选择SparkSql容器作业类型

  • 名称: 必填,作业流内名称唯一
  • 计算容器: 必填,作业执行所需的容器,需要在计算容器菜单中创建,且状态处于运行中
  • 备注: 非必填

20241220154910

点击运行,运行成功后,日志中返回执行成功

20240518105033

运行成功,点击数据返回,可以查询SparkSql的返回数据

20240518105050

SparkSql容器作业支持计算容器切换

20240518105108

数据同步作业

选择数据同步作业类型

  • 名称: 必填,作业流内名称唯一
  • 计算集群: 必填,指定需要提交作业运行的计算集群
  • 备注: 非必填

20241220155341

20240518105302

写入模式说明
  • 追加模式: 目标表数据不变,插入来源数据
  • 覆写模式: 先清空目标表,再进行数据同步
分区说明
  • 分区键: 指定来源表中的一个字段进行分区,数据同步过程中会对该字段切分
  • 分区数: 默认1,以分区键为准,将来源表切分成多少分,进行同步
  • 并发数: 默认1,对切分好的分区数据,指定并发处理的执行器,推荐:分区数大于等于并发数,且成倍数关系

20241220160112

点击数据预览按钮,

20240518105438

字段支持转换功能,支持spark官方的函数,参考链接: https://spark.apache.org/docs/latest/sql-ref-functions.html

20240518110055

点击运行,运行成功日志中返回执行成功

20240518105456

运行成功,点击运行日志,可查看作业运行的具体日志

20240518105508

Bash作业

选择bash作业类型

  • 名称: 必填,作业流内名称唯一
  • 计算集群: 必填,选择计算集群中的执行集群
  • 集群节点: 必填,选择集群中的某一个节点
  • 备注: 非必填

20241220160609

点击运行,运行成功后,日志中返回执行成功

20240518105721

运行成功,点击运行日志,可以查看bash作业打印的内容和运行结果

20240518105736

Bash作业支持切换计算集群和集群节点

20240518105751

python作业

选择python作业类型

  • 名称: 必填,作业流内名称唯一
  • 计算集群: 必填,选择计算集群中的执行集群
  • 集群节点: 必填,选择集群中的某一个节点
  • 备注: 非必填

20240518105840

20240518105927

20240518105939

20240518105951

自定义作业

选择自定义作业

  • 名称: 必填,作业流内名称唯一
  • 计算集群: 必填,指定需要提交作业运行的计算集群
  • 备注: 非必填

20240518110124

自定义作业参考链接: https://github.com/isxcode/spark-job-template

  • 应用名称 : 必填,应用的名称
  • 资源文件 : 必填,资源中心上传的自定义Spark作业jar文件
  • mainClass : 必填,jar包中启动的入口程序
  • 请求参数 : 非必填,jar作业运行所有需要的请求参数

20240518110139

自定义作业支持依赖配置,如果jar中需要包含其他依赖,可通过资源中心上传

20240518110200

20240518110323

20240518110334

20240518110347

接口调用

可视化接口调用作业

20240518110457

20240518110516

20240518110636

Excel导入作业

选择Excel导入作业

  • 名称: 必填,作业流内名称唯一
  • 计算集群: 必填,指定需要提交作业运行的计算集群
  • 备注: 非必填

20241220161217

20241220161340

支持文件名替换功能
作业调度的时候会更具文件名称规则,导入资源中心中指定的Excel文件

Users_#[[date_to_str(now(),'YYYY-MM-dd')]].xlsx

20241220161635

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值