大数据培训-DolphinScheduler(二)

Apache DolphinScheduler是一个分布式去中心化,易扩展的可视化DAG工作流任务调度系统。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。

一、快速上手

1、使用admin用户登录,密码是dophinscheduler123,创建队列。

2、创建租户,创建租户前要确保HDFS的根目录下所属者都是hdfs,与DS配置文件保持一致,否则会创建失败。

3、创建普通用户。

4、创建告警组。

5、创建token令牌。

6、退出账号,切换test用户。

7、创建项目。

8、点击项目名称,进入项目首页,创建工作流。

9、创建三个简单的工作任务,执行简单输出,输出hello world。

10、选中箭头,将节点进行连接,建立任务间的执行顺序,点击保存,设置DAG图名称。

11、测试,上线,需要先点击上线,再点击执行,执行前需要配置一些参数。

12、执行完成之后,查看是否成功和日志。

二、资源中心

资源中心用于上传文件和udf函数,所有上传的文件和资源都会被存储到hdfs上(在安装时配置了相关参数),将jar包上传上去,用于后面测试。

三、Spark节点

1、创建hdfs(需要和hdf路径上的owner对应)租户。

2、创建atguigu用户。

3、切换成atguigu用户,在项目管理中新创建项目test-project。

4、在新建的项目中创建新的工作流,在工作流创建画布上选择spark节点图标,创建spark任务,使用我们事先已经上传到资源中心的jar包,配置必要的参数。

5、以此类推,分别创建出dwd层、dws层和ads层的任务流,并使用箭头连接,确定三个任务的先后执行顺序。

6、上线、执行,进行测试。

7、执行完成后,可以查看甘特图和日志等信息。

四、创建HIve数据源

1、点击数据源中心,点击创建数据源。

2、选择数据源类型是HIVE/IMPALA,并配置必要参数。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Apache DolphinScheduler (海豚调度)是一个开源的大数据分布式工作流、任务调度系统,属于Apache基金会孵化器项目。DolphinScheduler能够支持Hadoop、Spark、Flink、Storm、Hive等大数据生态系统中的常用计算框架,支持Docker、Shell、Python等常用脚本语言。其最新版本为3.1.3。 该版本在上一个版本的基础上进行了多项升级和改进,包括: 1.添加了对Docker Compose的支持: 用户可以在调度任务时使用Docker Compose打包和运行任务。 2.Planner-Dynamic算法升级: Planner-Dynamic算法可以根据任务执行延迟等不同因素进行动态调整,从而提高任务的执行效率和稳定性。 3.增加了任务执行状态监控: 用户可以实时查看任务执行的状态,包括任务的进度、日志和结果等。 4.优化了任务失败重试机制: DolphinScheduler增加了任务失败重试机制,可以自动重试失败的任务,从而提高系统的稳定性和可靠性。 5.增加了多个Web UI支持: DolphinScheduler增加了多个Web UI页面,包括对任务执行状态监控和调度任务等功能的支持,提供了更加易于使用的用户界面。 6.优化了系统性能和稳定性: DolphinScheduler针对上一个版本中的一些问题进行了优化和改进,包括系统的性能、稳定性和可扩展性等方面。 综上所述,Apache DolphinScheduler 3.1.3版本在功能、性能、稳定性和易用性等方面得到了多项升级和改进,在大数据分布式任务调度和工作流领域具有广泛的应用前景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值