dolphinscheduler-data-quality-3.1.0 部署

本文详细介绍了如何在DolphinScheduler中安装和配置数据质量模块,包括添加MANIFEST.MF文件、修改pom.xml、打包jar、上传jar到指定路径,并在common.properties中配置数据质量选项。此外,还提到了Spark驱动包的配置,确保流程定义中的数据质量节点能够正确运行。
摘要由CSDN通过智能技术生成

前提条件

dophinscheduler-3.1.0 安装 standalone-server 模式,参考
https://blog.csdn.net/windydreams/article/details/127678233

编译数据质量源码

为了保障后期正常运行,简化配置,可以进行以下配置
1)添加资源文件src/main/resources/META-INF/MANIFEST.MF, 主要是添加Main-Class

Manifest-Version: 1.0
Implementation-Title: dolphinscheduler-data-quality
Implementation-Version: 3.1.0
Specification-Vendor: The Apache Software Foundation
Specification-Title: dolphinscheduler-data-quality
Build-Jdk-Spec: 1.8
Created-By: Maven Jar Plugin 3.2.0
Specification-Version: 3.1
Implementation-Vendor: The Apache Software Foundation
Main-Class: org.apache.dolphinscheduler.data.quality.DataQualityApplication

2) 修改pom文件,添加打包文件

<build>
    <plugins>
        <plugin>
            <groupId>org.apache.maven.plugins</groupId>
            <artifactId>maven-jar-plugin</artifactId>
            <configuration>
                <archive>
                    <manifestFile>
                        src/main/resources/META-INF/MANIFEST.MF
                    </manifestFile>
                    <manifest>
                        <addClasspath>true</addClasspath>
                    </manifest>
                </archive>
            </configuration>
        </plugin>
    </plugins>
</build>

配置好可以使用mvn命令编译打包,生成 dolphinscheduler-data-quality-3.1.0.jar
3) 上传jar 包, 路径如下

/opt/DS/apache-dolphinscheduler-3.1.0-bin/standalone-server/libs

如果不进行步骤1、步骤2 的配置,那么在流程定义配置数据质量节点的时候,添加自定义参数, 指定Main-Class ,如下图所示。
在这里插入图片描述

配置 dolphinscheduler

配置数据质量选项
修改/opt/DS/apache-dolphinscheduler-3.1.0-bin/standalone-server/conf/common.properties,如下

# data quality option
#data-quality.jar.name=dolphinscheduler-data-quality-dev-SNAPSHOT.jar
data-quality.jar.name=dolphinscheduler-data-quality-3.1.0.jar
#data-quality.error.output.path=/tmp/data-quality-error-data
# Network IP gets priority, default inner outer

然后重启!

/opt/DS/apache-dolphinscheduler-3.1.0-bin/bin/dolphinscheduler-daemon.sh stop standalone-server
/opt/DS/apache-dolphinscheduler-3.1.0-bin/bin/dolphinscheduler-daemon.sh start standalone-server

spark配置

驱动包
将mysql-connector-java-8.0.x.jar 拷贝到$SPARK_HOME/jars目录下面, 本文用的是

/home/hadoop/spark/spark-2.4.8-bin-hadoop2.7/jars/mysql-connector-java-8.0.25.jar

如果是用的其他数据源,也需要将jdbc驱动放入jars/目录
这样基本就可以了,后面就是去配置数据质量规则了

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: DolphinScheduler 平台提供了一些数据质量相关的功能来保证数据的准确性和一致性: 1. 数据校验:平台提供了数据校验的功能,可以对数据进行校验和验证,确保数据的正确性。用户可以通过配置验证规则和条件来实现数据的有效性验证。 2. 数据监控:平台提供了数据监控的功能,可以监控数据的状态和变化。用户可以通过配置监控规则和条件来实现数据的实时监控和报警。 3. 数据清洗:平台提供了数据清洗的功能,可以对数据进行清洗和处理,确保数据的一致性和完整性。用户可以通过配置清洗规则和条件来实现数据的清洗和处理。 4. 数据血缘追踪:平台提供了数据血缘追踪的功能,可以追踪数据的来源和去向,确保数据的溯源和追踪。用户可以通过配置数据血缘规则和条件来实现数据的追踪和溯源。 综上所述,DolphinScheduler 平台提供了一系列的数据质量相关的功能,可以帮助用户保证数据的准确性和一致性。 ### 回答2: DolphinScheduler是一款开源的分布式数据工作流调度系统,可以帮助用户实现数据流的自动化调度和管理。它具备高性能、高可靠、高可扩展性等特点,提供了丰富的功能来保证数据质量。 首先,DolphinScheduler提供了灵活的任务调度功能,可以根据用户的需求和设置实现定时、周期性或事件驱动的数据处理任务。这样可以确保数据按时、按需提供,避免了数据延迟或数据丢失的问题,保证了数据质量。 其次,DolphinScheduler支持多种数据处理任务,如数据抽取、清洗、转换、计算、加载等,可以满足不同场景下的数据质量要求。用户可以根据实际需求选择合适的任务,进行数据质量保障。 此外,DolphinScheduler还提供了数据监控和告警功能。用户可以通过监控数据任务的执行情况、任务的状态、产生的数据指标等,对数据质量进行实时监控。同时,系统也支持设置预警规则和告警方式,如邮件、短信等,一旦发现数据质量异常,及时通知相关人员进行处理。 最后,DolphinScheduler还提供了任务依赖和失败重试的功能,确保数据的完整性和准确性。任务依赖可以设置数据流的依赖关系,保证数据按照正确的顺序进行处理;而失败重试功能可以在任务执行失败时自动重试,确保数据处理过程中的错误得到及时修复,保障数据质量。 综上所述,DolphinScheduler通过灵活的任务调度、多种数据处理任务、数据监控和告警、任务依赖和失败重试等功能,为用户提供了全面的数据质量保障。用户可以根据实际需求和场景,灵活配置系统,确保数据的准确性、完整性和时效性。 ### 回答3: DolphinScheduler是一种用于管理和调度大数据处理任务的开源工具,其在保障数据质量方面具有以下特点。 首先,DolphinScheduler提供了丰富的任务调度功能,能够确保数据按时、准确地进行处理。用户可以根据任务的优先级和依赖关系设置调度策略,保证任务之间的数据流动顺利进行。同时,DolphinScheduler还提供了任务失败重试和告警功能,可以及时发现和解决数据处理过程中的异常情况,从而保证数据质量。 其次,DolphinScheduler支持多种数据处理任务类型,包括数据清洗、转换、计算和分析等,这样可以满足不同数据质量需求。用户可以灵活地配置任务参数,如输入数据源、输出数据目的地和数据处理算法等,确保数据在处理过程中不会丢失、损坏或篡改,从而保证数据质量。 此外,DolphinScheduler还提供了任务监控和日志管理功能,使用户可以实时监控任务的执行情况。通过查看任务的运行日志和监控指标,用户可以了解任务的处理过程和结果,及时发现数据质量问题,并进行相应的处理和优化,确保数据质量不受损。 最后,DolphinScheduler提供了可视化的任务编排和调度界面,使用户可以直观、方便地管理和配置数据处理任务。用户可以通过图形化界面进行任务的创建、编辑和调度,降低了使用门槛,提高了数据质量管理的效率和准确性。 总之,DolphinScheduler通过丰富的任务调度功能、多样化的任务类型支持、实时的任务监控和日志管理、以及可视化的任务编排界面等特点,能够提供高效、可靠的数据质量管理解决方案。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

风的心愿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值