产品文档--

产品介绍

产品概述

虎符是一站式工业“人机料法环”多态数据开发与资产化管理系统,用于构建工业数据资源体系,让企业的全域数据资产在线,为数据挖掘、智能排产、数字孪生等基于数据的智能应用提供数据支撑,帮助企业掌握数据资产状态,为各业务提供统一、高效的数据服务,奠定“智慧大脑”的基础。

产品架构

1644809373105_image

雪浪虎符提供八大功能模块,支持对企业全域数据加工治理。功能模块包括:管理中心、规范设计、数据集成、数据开发、指标管理、数据质量、数据资产与数据服务。

产品功能

  • 管理中心

提供平台的日常基础管理能力,包括定义平台开发模式、计算存储资源、用户角色管理、消息通知服务、企业门户设置等功能。

  • 告警中心

用于对数据全生命周期进行监控告警,异常事件实时告警通知,管理着平台内所有配置的任务产生的告警信息。提供对数据集成、离线计算、实时计算、数据质量等多种类型的任务进行自定义告警配置,当监控的任务触发告警规则后,支持以邮件的方式通知相关人员。

  • 规范设计

提供数据治理的规划设计功能,将业务和数据的需求转化为数据工程师可执行的规范与要求,功能包括主题域设计、数据标准、可视化建模、指标定义等,利于提高企业数据质量,统一口径与标准。

  • 数据集成

提供对结构化、半结构化、非结构化数据的实时与增量采集,全部采用配置方式完成。功能包括离线采集、实时采集、接口采集、文件采集、对象存储、自定义表单、设备物联采集模块。

  • 数据开发

具备海量数据实时、离线计算;支持流程化方式快速构建数据处理分析流程,支持对关系数据、时序数据、空间数据(BIM、GIS等)融合计算。

  • 指标管理

零代码方式构建企业指标,通过规范化设计帮助企业指标统一计算口径与计算逻辑。

  • 数据质量

数据全生命周期监控,数据处理全流程质量管控,异常事件实时通知。

  • 数据资产

提供高效的元数据查询服务,支持查询并定位数据资产;数据地图与全域数据实现全文数据搜索与数据全景可视。

  • 数据服务

提供高效便捷的API创建方式,实现API全链路的生命周期管理,支持API的安全访问管理,有效保障企业数据安全与高效使用。

应用场景

综合数据治理运营,提高数字化决策效率

场景:某公司是一家全球大型轮胎制造公司,生产端的各个分厂集中在亚太地区,销售端触达全球各地。

痛点:集团在日常生产经营过程中存在大量的指标报表需要查看,因生产链路长,业务系统多、数据分散、数据质量较低等因素;指标计算需要大量人工参与计算且计算周期较长。

解决方案:

  • 数据集成:通过配置的方式将企业内分散的数据进行汇总
  • 数据建模:通过对业务的理解,构建以业务为主题的数据模型
  • 指标管理:基于采集的数据与模型的融合,通过配置化的方式完成指标创建

价值:

  • 构建自动化的数据流:让数据自动流动,减少人为参与。
  • 提高数据质量:规范约束数据质量,自动完成数据质量监控。
  • 提高数据研发效率:抽象数据模型,支持更多场景。

企业数据治理,打造企业数据智能

场景:某公司为国内民用飞机制造商,在飞机制造过程中零部件高达130多万,且业务系统错综复杂。

痛点:在传统交付飞机过程中会配套大量纸质文件,但无法直观看到飞机状态信息做日常的管理与运维,则需要制造商交付一台数字飞机,能够实时查看飞机的变化以及零部件信息等。

解决方案:

  • 数据集成:采集汇聚多源异构数据
  • 数据治理:对企业内数据总体规划、设计、开发进行数据治理
  • 模型设计:构建飞机的三维模型
  • 数据与模型融合:将飞机三维模型与实时数据融合,构建数字飞机。

价值:

  • 飞机数字化交付(线下转线上,结构化的交付内容,数字化的交付档案)。
  • 生产过程的可视化和透明化,实现生产过程信息的全面集成。
  • 飞机质量问题快速定位与检索。
  • 数据变成资产,构建了飞机数据纪实载体。

使用指南

虎符使用简介

虎符数据资源管理平台是对企业内的全域数据进行全生命周期的管理,平台对管理与存储进行了拆分,用户可以自由选择底层的数据存储资源。数据治理支持底代码开发方式,以便于降低企业对大数据平台的使用门槛,帮助企业快速构建从数据接入到数据治理的智能数据系统,从而消除数据孤岛,统一数据标准,加快数据变现,实现数字化转型。

虎符的用户

虎符用户主要为企业信息化部门的工程师,虎符在日常使用过程中推荐设置三类角色,可基于职能进行划分,分别是管理员、开发者、访客;如果三类角色无法满足需求,用户可新增自定义角色。

  • 管理员

管理员是平台内最高管理者,拥有绝对的管理权限;包括工作空间的创建、底层数据存储资源的选择与切换、角色账号管理、数据治理所有功能的查看、审核、编辑等

  • 开发者

面向数据开发工程师,基于管理员设计好的工作空间与存储,进行日常的数据开发工作,功能权限包括规范设计、数据集成、数据开发、指标管理、数据质量、数据资产、数据服务功能

  • 访客

访客仅具备只读权限,可按需分配查看权限。

管理中心

存储资源

在使用虎符之前平台管理员需先进行存储资源的配置,存储资源的选择需根据实际业务场景选择符合需求的数据库,用于存储数据治理过程中的数据,虎符支持的存储资源有:Hive、PostgreSql。

创建Hive存储资源

使用教程

1、登录虎符平台

2、在虎符首页右上角点击用户头像,选择管理中心 > 存储管理

3、在存储管理页面,单击右上角新建存储资源按钮,在新建存储资源中,选择Hive,配置各项参数

1644809373572_image

参数描述
存储资源类型系统对存储资源的支持,支持Hive、PostgreSql
存储资源名称2-32个字符,支持中文、英文字母、数字和下划线
存储资源描述128个字符以内,支持中文、英文字母、数字和下划线
服务器数据库对应的服务器IP地址
端口数据库对应的端口
用户名数据库访问账号
密码数据库访问密码
连接信息连接信息是基于填写的信息,自动完成拼装

4、点击连接测试测试数据源是否可以和虎符进行正常的连通。

如果连接测试失败,您可以根据网络连通常见问题进行排查。详细内容,请参见网络连通的常见题

5、测试成功后,单击确定,完成Hive存储资源的创建。

创建PostgreSql存储资源

使用教程

1、登录虎符平台

2、在虎符首页右上角点击用户头像,选择管理中心 > 存储管理

3、在存储管理页面,单击右上角新建存储资源按钮,在新建存储资源中,选择PostgreSql配置各项参数

工作空间

为了保障数据治理的安全与稳定可靠,工作空间采用逻辑隔离,用户可以按需创建多个工作空间。

创建工作空间

使用教程

1、登录虎符平台

2、在虎符首页右上角点击用户头像,选择管理中心 > 工作空间

3、在工作空间页面,单击右上角新建工作空间按钮,在新建工作空间页面中,配置各项参数

1644809373617_image

参数描述
空间名称2-32个字符,支持中文、英文字母、数字和下划线
存储资源存储资源为工作空间提供存储能力,可以选择或者添加存储资源

切换存储资源

随着企业业务的发展,当前的存储已不适合继续支撑数据的存储,则需要进行存储资源的切换,切换存储,系统会将之前的所有数据与元数据进行一次克隆,存储在新的存储资源上,并且会保留之前的工作空间,以保证原存储能够继续执行日常工作。

注:切换存储资源风险较高,影响范围包括数据开发的脚本模式,若切换之后可能存在脚本不可用情况,其他功能可正常运行。

使用教程

1、在工作空间列表中点击列表中的切换存储按钮

1644809373636_image

参数描述
空间名称2-32个字符,支持中文、英文字母、数字和下划线
原存储资源系统显示当前工作空间的存储资源
目标存储资源选择需要切换到的目标存储资源
删除工作空间

删除工作空间风险较高,在删除工作空间时需要进行二次确认。

使用教程

1、在工作空间列表中点击列表中的删除按钮

2、在删除弹窗中需输入工作空间名称做二次确认删除。

1644809373672_image

用户管理

用户管理分为角色管理和账号管理两个模块,角色系统默认提供一个系统管理员,其他类型角色用户可自定义创建。

角色管理

使用教程

1、登录虎符平台

2、在虎符首页右上角点击用户头像,选择管理中心 > 用户管理

3、在用户管理页面选择角色管理,单击右上角新建角色按钮,配置角色各项参数。

1644809373701_image

参数描述
角色名称2-32个字符,支持中文、英文字母、数字和下划线
角色描述128个字符以内,支持中文、英文字母、数字和下划线
功能权限依据功能列表进行勾选,菜单权限具备查看、编辑两个选项。
只有具备了查看权限才能具备编辑权限
账号管理

账号的创建可直接关联角色,此时的账号只能登录虎符,无法进入工作空间进行开发,需要为账号分配工作空间权限。

使用教程

1、在用户管理页面内,选择账号管理,单击右上角“新建账号”按钮,配置账号各项参数。

1644809373780_image

参数描述
账号2-32个字符,支持中文、英文字母、数字和下划线
登录密码8-32个字符,至少包含大小写字母、数字和特殊字符中的2种
确认登录密码8-32个字符,至少包含大小写字母、数字和特殊字符中的2种
姓名2-32个字符,支持中文、英文字母、数字和下划线
手机号11位用户手机号
邮箱用户邮箱
角色下拉框选择用户角色
部门2-32个字符,支持中文、英文字母、数字和下划线
职位2-32个字符,支持中文、英文字母、数字和下划线

权限管理

空间权限

空间权限是赋予用户所能进入的开发环境。

使用教程

1、登录虎符平台

2、在虎符首页右上角点击用户头像,选择权限中心 > 空间权限

3、在列表中选择工作空间列,单击添加选择给该账号赋予的空间权限。

1644809373838_image

数据权限

数据权限是基于用户在某一个工作空间内,所能查看或编辑的数据表,默认用户能查看并编辑所有数据表。

使用教程

1、登录虎符平台

2、在虎符首页右上角点击用户头像,选择权限管理 > 数据权限

3、在列表中单击用户前面的“+”,会显示用户当前所有的工作空间,每个工作空间都支持查看权限与编辑权限

1644809373911_image

4、点击编辑出现的弹窗则可以在当前工作空间下用户可查看或编辑的数据表。

1644809373984_image

通知管理

通知管理用于配置基础的通知服务,基于此服务对外发送消息。支持邮件服务。

使用教程

1、登录虎符平台

2、在虎符首页右上角点击用户头像,选择通知管理配置各项参数。

1644809374042_image

参数描述
邮箱服务器类型系统默认采用SMTP类型
发件人昵称邮件对外发送的默认称呼,2-32个字符,支持中文、英文字母、数字和下划线
邮箱服务器邮箱服务器地址
端口邮箱服务器端口
用户名邮箱服务器用户名
密码邮箱服务器密码
是否启动SSL请选择是否开启SSL(Secure Sockets Layer 安全套接字协议)

企业设置

门户设置用于构建自定义的软件门户样式,包括浏览器的Title与登录页的名称和背景图。

使用教程

1、登录虎符平台

2、在虎符首页右上角点击用户头像,选择企业设置 > 门户设置 配置各项参数。

1644809374105_image

参数描述
公司名称用户设置浏览器Title名称与登录之后左上角Logo名称
展示Logo登录系统之后显示的名称,建议尺寸80*80
登录名称登录页展示的内容
背景图登录页整体的背景图,建议尺寸1920*1080

系统设置

系统设置用户注册和更新系统License,注册之后会显示当前系统的可用天数与截至日期。

1644809374143_image

告警中心

告警配置

告警配置提供对数据集成、离线计算、实时计算、数据质量等多种类型的任务进行自定义告警配置,支持以邮件的方式通知相关人员。

使用教程

1、登录虎符平台

2、在虎符首页右上角点击用户头像,选择告警中心 > 告警配置

image-20221216110509213

3、新建告警配置:点击新建告警任务,填写对应信息。

参数描述
告警主题可选择 离线计算、实时计算、数据质量、数据集成 四种类型的任务
通知人选择需要通知的人的虎符账号
通知方式目前只支持 邮件方式
数据表/任务表选择相应主题下数据表或者已发布的任务
报警原因选择需要触发报警的条件

注:虎符账号对应的邮箱必须是有效的。

告警配置

离线计算

对于告警主题为离线计算的类型时,选择某个工作流程,可自定义配置告警规则,如:任务失败、任务完成、自定义设置任务运行超时、任务未完成等多种规则,当任务触发告警规则后,会通过邮件的方式通知相关人员。

离线计算

实时计算

对于告警主题为实时计算的类型时,选择某个实时开发任务,可自定义配置告警规则,如:任务失败、任务完成、自定义设置任务运行超时、任务未完成等多种规则,当任务触发告警规则后,会通过邮件的方式通知相关人员。

实时计算

数据质量

对于告警主题为数据质量的类型时,选择某张数据表,可自定义配置告警规则为SQL语句出错、数据质量问题,当任务触发告警规则后,会通过邮件的方式通知相关人员。

数据质量

数据集成

对于告警主题为数据集成的类型时,选择某个任务类型,离线集成的任务类型有:离线采集、实时采集、接口采集,然后勾选某个任务名称。可自定义配置告警规则,如:任务失败、任务完成、任务同步失败条数超过某个阈值等告警规则,当任务触发告警规则后,会通过邮件的方式通知相关人员。

数据集成

告警记录

告警记录用于管理平台内产生的所有告警信息。告警任务设置成功之后,每一次的发送记录都会在告警记录中显示,记录的状态会显示发送成功/发送失败。

image-20221216111145486

规范设计

数据调研

数据调研即对业务的理解与数据的梳理将结果性内容配置到管理工具内。

数据Owner

数据owner用于定义数据的责任对象。

使用教程

1、登录虎符平台

2、选择规范设计 > 数据调研 > 数据Owner单击右上角新建Owner配置各项参数。

Owner名称可以为个人或者部门。

1644809374168_image

数据管理

在开始同步业务数据至虎符之前,需要将业务系统数据源注册至虎符,虎符支持的数据源有:

类别数据源类型
大数据MaxCompute、Hive、SAP HANA
文件数据源HDFS
关系型数据源MySQL、SQL Server、PostgreSQL、IBM DB2、Oracle、人大金仓、达梦
NoSQL数据源HBase、MongoDB
消息队列数据源Kafka、MQTT
时序数据库Open TSDB
图数据库Dgraph

使用教程

1、登录虎符平台

2、选择规范设计 > 数据调研 > 数据管理单击右上角新建数据源配置各项参数。

以Mysql为例

1644809374197_image

参数描述
数据源类型此处为选择项,用于筛选需要注册的数据源类型
数据源名称2-32个字符,支持中文、英文字母、数字和下划线
数据源描述128个字符以内,支持中文、英文字母、数字和下划线
服务器数据库所属的IP地址
端口数据库所属的端口
数据库数据库名称
用户名数据库用户名
密码数据库密码
主题设计

主题设计用于设计分层架构表达对数据的分类和定义。

主题设计默认分为四层,分别是:贴源层、公共层、应用层、其他层

分类描述

贴源层

存放未经过处理的原始数据至数据仓库系统,结构上与源系统保持一致,是数据仓库的数据准备区。主题设计主要围绕数据来源展开,例如MES系统、ERP系统等。
公共层又称通用数据模型层,包括DIM维度表、DWD和DWS,由ODS层数据加工而成。主要完成数据加工与整合,建立一致性的维度,构建可复用的面向分析和统计的明细事实表,以及汇总公共粒度的指标。主题设计主要围绕业务属性展开,如生产、质量、销售、物流等。
应用层存放数据产品个性化的统计指标数据。主题设计主要围绕应用展开,如BI、大屏、app等。
其他层存放数据临时性模型与不符合数仓规范的模型,主题设计不做特殊要求。

使用教程

1、登录虎符平台

2、选择规范设计 > 数据调研 > 主题设计单击右上角新建主题配置各项参数。

1644809374264_image

参数描述
名称主题中文名称,2-32个字符,支持中文、英文字母、数字和下划线
上级主题主题的上一层级,默认可以选择贴源层、公共层、应用层、其他层
描述主题的描述性信息,128个字符以内,支持中文、英文字母、数字和下划线

标准设计

数据标准用于制定企业层面共同遵守的数据含义与业务规则,它描述的是企业对某个数据的共同理解。

标准定义

标准定义的目录默认采用主题设计中的公共层主题;每一个标准只有在发布之后才能生效,可以被数据模型引用,支持系统自动监测平台内和已注册数据源的元数据是否符合标准。

新建标准

1、登录虎符平台

2、选择规范设计 > 标准设计 > 标准定义单击右上角新建标准配置各项参数。

1644809374297_image

参数描述
中文名称标准中文描述,工作空间内唯一,2-32个字符,支持中文、英文字母、数字和下划线
英文名称英文名称,工作空间内唯一,1-128个字符,支持英文字母、数字和下划线
主题下拉框选择主题,选择内容为主题设计中的公共层主题
业务属性业务属性为KV形式,可自定义数据业务属性
数据类型支持字符型(String)、数字型(Number)、日期型(Date)、日期时间型(DataTime)
数据长度数据长度由用户自定义
度量单位支持米(m)、平方米(㎡)、牛·米(N·m)、摄氏度(℃)、千克(kg)、瓦(W)、秒(s)、天(d)、分(min)
是否允许为空单选/
是否允许重复单选/
取值范围取值范围支持大于、小于、等于;逻辑关系支持或、且、非
枚举范围枚举范围支持用户自定义编写
正则表达式自定义编写正则表达式
数据Owner下拉框选择数据Owner,数据来源为数据调用 > 数据Owner中内容

一键导入

支持用户基于模板填写完成之后,将文件一键导入到平台内。若导入过程中出现重复系统会提示跳过覆盖

1、登录虎符平台

2、选择规范设计 > 标准设计 > 标准定义单击右上角一键导入进入弹窗。

1644809374353_image

3、下载模板

4、上传编辑好的模板至平台

标准映射

系统1分钟检查一次平台内的模型字段与已发布的标准是否匹配,匹配规则为英文名称相同。若匹配到则在“待绑定数量”列中会有数量提示,点击绑定详情进入绑定管理。

绑定详情

维护是将该标准的中文描述信息,更新到模型字段上;绑定是将标准与字段进行一个关联,绑定完成之后模型字段会打上标准标签。

1644809374389_image

1、在标准映射页面单击绑定详情,进入绑定详情页面。

1644809374425_image

2、单击维护,则标准的中文信息会更新模型字段中文信息。

3、单击绑定,则标准与模型字段完成绑定。

4、取消绑定,字段的中文信息不会更新,标准与模型字段的关联关系会断开。

映射报告

映射报告是将系统监测平台本身与已注册的数据源的元数据信息,计算命中(符合)标准的比例,形成一份监测报告。报告会显示命中的比例以及字段命中数量,同时支持报告下载。

1644809374494_image

模型设计

总线矩阵

总线矩阵是对企业数仓规划设计的一种方式,行是业务过程,列是公共维度;通过总线矩阵,可以对整个数仓的结构有一个清晰的了解,能够看出某个业务过程包含哪些通用维度。通过总线矩阵建设数据结构框架,可以处理不同的以过程为中心的维度模型的实现,且他们的实现严格遵守一致性维度。

总线矩阵通过创建事实行与维度列,通过构建行列之间的关系完成总线矩阵的设计。

使用教程

1、登录虎符平台

2、选择规范设计 > 模型设计 > 总线矩阵进入列表页面。

3、新建事实行,单击右上角新建事实行配置各项参数。

1644809374538_image

4、新建维度列,单击右上角新建维度列配置各项参数。

1644809374563_image

5、构建业务关系:业务关系是从业务角度理解,将行列之间的业务关系进行打勾关联(✅)。

6、构建逻辑关系:每个事实行与维度列都可以绑定一张数据表,用于构建逻辑关系,单击行或者列出现表关联,关联之后会出现链接标识,则代表关联成功(🔗)。

1644809374592_image

同时在矩阵中行列相交处,单击选择关联设置进行表之间的逻辑关联,

1644809374674_image

通过选择事实与维度的字段进行关联,完成表与表之间的逻辑关系。

贴源模型

存放未经过处理的原始数据至数据仓库系统,结构上与源系统保持一致,是数据仓库的数据准备区。主题设计主要围绕数据来源展开,例如MES系统、ERP系统等。

模型层级前缀为:ods_

公共模型

又称通用数据模型层,包括DIM维度表、DWD和DWS,由ODS层数据加工而成。主要完成数据加工与整合,建立一致性的维度,构建可复用的面向分析和统计的明细事实表,以及汇总公共粒度的指标。主题设计主要围绕业务属性展开,如生产、质量、销售、物流等。

模型层级前缀为:dwd_dws_dim_

应用模型

存放数据产品个性化的统计指标数据。主题设计主要围绕应用展开,如BI、大屏、app等。

模型层级前缀为:ads_

其他模型

存放数据临时性模型与不符合数仓规范的模型,主题设计不做特殊要求。

模型层级前缀为:tmp_、其他

指标设计

指标设计用于将业务指标录入,并定义清楚指标的计算逻辑与业务逻辑;指标设计包含单指标与分析模型。

使用教程

我的指标

1、登录虎符平台

2、选择规范设计 > 指标定义 > 我的指标进入列表页面。

3、单击右上角新建指标配置各项参数。

1644809374723_image

参数描述
指标编码系统自动生成
指标名称指标中文名称,指标名称需唯一,2-32个字符,支持中文、英文字母、数字和下划线
业务创建人需求来源人
数据Owner下拉框选择数据Owner,数据来源为数据调用 > 数据Owner中内容
主题下拉框选择主题,选择内容为主题设计中的公共层主题
业务定义当前指标的业务场景与业务描述,128个字符以内,支持中文、英文字母、数字和下划线
计算规则当前指标的计算逻辑,128个字符以内,支持中文、英文字母、数字和下划线
指标类型单一指标即为原子指标,多指标计算为衍生指标。
时效属性采用离线开发的为离线指标,实时开发为实时指标。
数据来源表可选择数据的来源数据表
指标性质指标未进行汇总求和的为明细指标,否则为汇总指标
时间粒度统计汇总的最小时间单位,明细指标不需要设置。
指标精度指标小数点后保留几位。如1
指标单位指标的单位如“个”、“元”
可用分析维度可用于分析的维度
同步配置指标数据要同步的时间

我的分析模型

1、登录虎符平台

2、选择规范设计 > 指标定义 > 我分析模型进入列表页面。

3、单击右上角新建模型配置各项参数。

1644809374802_image

参数描述
模型名称模型中文名称,模型名称需唯一,2-32个字符,支持中文、英文字母、数字和下划线
业务创建人需求来源人
数据Owner下拉框选择数据Owner,数据来源为数据调用 > 数据Owner中内容
业务定义当前指标的业务场景与业务描述,128个字符以内,支持中文、英文字母、数字和下划线
模型类型汇总模型与明细模型
时效属性仅支持离线
指标项可选择已定义的我的指标
维度项可用于分析的维度
同步配置指标数据要同步的时间

数据集成

离线同步

离线同步通过简单的配置,基于自定义的调度周期,完成海量数据迁移,支持多种异构数据源的全量与增量同步。

离线同步支持的数据源类型:

数据源类型读取写入描述
Mysql
SqlServer
PostgreSql
DB2
Oracle
Sap Hana
kingbase(人大金仓)
dm(达梦)
Hive
HBase
Mongodb
HDFS
Open TSDB
elasticsearch

实时同步

实时同步通过简单的配置,达到数据秒级从源端到目标端的同步,为处理或分析流数据的程序构建数据流管道。

实时同步支持的数据源类型:

数据源类型读取写入描述
Kafka
MQTT--
Mysql
SqlServer--
PostgreSql
Oracle
kingbase(人大金仓)--
dm(达梦)--
Hive--源端不支持CDC
Mongodb--

接口采集

接口采集支持Http/Https、WebService协议与其他开放平台组件,通过配置的方式快速完成数据采集。

使用教程

Http/Https

1、登录虎符平台

2、选择数据集成 > 接口采集 > Http/Https进入列表页面。

3、点击新建任务配置各项参数。

1644809374865_image

类型描述
任务名称任务名称,接口采集内唯一,2-32个字符,支持中文、英文字母、数字和下划线
请求方式后端服务接口通信方式,单选
URL后端服务接口地址
认证认证分为三种方式
API密钥:填写key与Value
Token令牌:填写访问Token
自定义认证:通过上传认证jar包达到个性化的登录认证
请求头请求头由关键字/值对组成,每行一对
请求体请求体支持的类型有:Application/json类型;内容自定义json数据
结果变量名结果变量由变量名与表达式组成,变量名可以为其他组件所引用,
表达式是对接口返回的结果集做自定义解析
变量关系通过设置变量的层级关系,将有层级的json数据平展为数据库表,仅支持2种层级关系
计算结果计算结果是展示结果变量解析是否正确

WebService

1、登录虎符平台

2、选择数据集成 > 接口采集 > WebService进入列表页面。

3、点击新建任务配置各项参数。

1644809374953_image

类型描述
任务名称任务名称,接口采集内唯一,2-32个字符,支持中文、英文字母、数字和下划线
请求方式后端服务接口通信方式,单选
URL后端服务接口地址
认证认证分为三种方式
API密钥:填写key与Value
Token令牌:填写访问Token
自定义认证:通过上传认证jar包达到个性化的登录认证
请求参数请求体支持填写单值
结果变量结果变量由变量名与表达式组成,变量名可以为其他组件所引用,
表达式是对接口返回的结果集做自定义解析
变量关系通过设置变量的层级关系,将有层级的json数据平展为数据库表,仅支持2种层级关系
计算结果计算结果是展示结果变量解析是否正确

文件采集

文件采集支持将xlsx、xls、csv内的数据进行采集。

使用教程

1、登录虎符平台

2、选择数据集成 > 文件采集进入列表页面。

3、点击上传文件进入弹窗,支持拖拽上传与点击上传,文件格式支持XLSX、XLS、CSV类型。

9-2文件采集 (1)

4、上传完成点击下一步查看上传数据是否符合预期。

5、配置映射数据表,将文件内的字段与数据表字段一一映射,若不存在数据表可进行一键建表

9-4文件采集 (1)

对象存储

对象存储是面向非结构化数据的一项集采集、存储与管理的服务,提供海量、安全、低成本、高可靠的数据存储能力。

存储管理

存储管理用于管理对象的存储,在上传任何文件到存储服务之前,需先创建存储空间。

使用教程

一、新建存储空间

1、登录虎符平台

2、选择数据集成 > 对象存储 > 存储管理进入列表页面。

3、单击左上角新建存储空间配置各项参数

1644809375121_image

参数描述
空间名称空间名称,名称需唯一,2-32个字符,支持中文、英文字母、数字和下划线
空间描述空间的描述性信息,128个字符以内,支持中文、英文字母、数字和下划线
加密方式加密方式默认不加密,可选择系统托管加密,系统会对每个对象使用不同的密钥进行加密保护
读写权限私有:只有该存储空间的拥有者可以对该存储空间内的文件进行读写操作,其他人无法访问
公共读:只有该存储空间的拥有者可以对该存储空间内的文件进行读写操作,其他人可以读文件
公共读写:任何人都可以对该存储空间内的文件进行读写操作

二、查看

1、选择存储空间 > 查看进入弹窗页面。

系统显示该存储空间的基础数据与基础设置

1644809375159_image

二、编辑

1、选择存储空间 > 编辑进入弹窗页面,存储空间4项配置都支持编辑。

1644809375205_image

三、删除

1、选择存储空间 > 删除进入弹窗页面,系统会提示是否确认删除。

1644809375239_image

三、文件管理

1、选择存储空间 > 文件管理进入列表页面。

2、点击右上角上传文件进行文件的上传。

3、每个对象均支持查看明细、下载、设置读写权限、删除动作。

1644809375271_image

注:此处的设置读写权限仅针对单个对象,不影响整个存储空间的权限设置。

4、查看页面支持以连接的方式向外输出,且支持连接的有效期设置。

1644809375349_image

服务工具

服务工具支持客户端工具Java SDK,用于外部管理或使用对象存储服务。

客户端工具

支持Windows客户端,通过下载程序安装在本地,配置本地路径与对象存储服务的存储空间完成数据的实时传输。

Java SDK

下载java SDK资源包,内部包含使用方法与案例,Java SDK是将已封装好的方法提供给第三方系统使用。

1644809375399_image

自定义表单

自定义表单用于创建一个个性化填报页面,发布到终端让用户填报数据。创建完成的表单只有发布之后才能被外部用户访问,表单的发布支持无认证方式有认证方式两种。

使用教程

1、登录虎符平台

2、选择数据集成 > 自定义表单进入列表页面。

3、点击新建表单进入页面,由左侧的组件拖入画布中配置表单。

1644809375464_image

参数描述
单行文本key:字段名称(必填项)
标题:字段的中文描述
默认值:不填写时采用的默认数据
校验:校验方式支持必填、最少字数、最多字数
多行文本key:字段名称(必填项)
标题:字段的中文描述
默认值:不填写时采用的默认数据
校验:校验方式支持必填、最少字数、最多字数
数字输入框key:字段名称(必填项)
标题:字段的中文描述
默认值:不填写时采用的默认数据
校验:校验方式支持必填、最小值、最大值、最大的小数位数
下拉框选项key:字段名称(必填项)
标题:字段的中文描述
选项:通过加号选项,自定义设置选项内容
校验:校验方式有必填
单项选择框key:字段名称(必填项)
标题:字段的中文描述
选项:通过加号选项,自定义设置选项内容
校验:校验方式有必填
复选框key:字段名称(必填项)
标题:字段的中文描述
选项:通过加号选项,自定义设置选项内容
校验:校验方式有必填
日期key:字段名称(必填项)
标题:字段的中文描述
日期格式:格式支持YYYY-MM-DDYYYY-MM
默认值:不填写时采用的默认数据
校验:校验方式支持必填、最大开始日期、最大结束日期
时间key:字段名称(必填项)
标题:字段的中文描述
默认值:默认值格式为hh:mm:ss
校验:校验方式有必填

4、1是表单名称,支持自定义修改;2是表名称,支持自定义修改,前缀为ods_

1644809375543_image

数据开发

离线计算

作业开发

作业开发面向临时查询的需求,仅执行一段测试脚本SQL,同时此脚本可以被工作流程引用。

使用教程

1、登录虎符平台

2、选择数据开发 > 离线计算 > 作业开发进入开发页面。

3、在工作目录中右键单击,选择新建作业进入开发工作台。

工作流程

离线计算支持向导模式与脚本模式,向导模式以配置的方式完成数据清洗加工,屏蔽底层复杂的计算架构,以更加友好、便捷的方式完成数据开发;脚本模式以编写SQL的方式完成开发。

使用教程

一、创建工作流程

1、登录虎符平台

2、选择数据开发 > 离线计算 > 工作流程进入列表页面。

3、在工作目录中右键单击,选择新建工作流程 > 脚本模式进入开发工作台,从开发组件区域拖入相应的组件,并进行开发。

2-2-工作流程

二、开始节点

画布创建初始,自带一个开始节点作为该工作流程的起始节点,主要用于整个工作流程的调度配置:包括生效日期、调度周期,设置任务依赖。

右侧导航栏可查看节点详情调度依赖和任务的操作记录

  • 节点详情:查看该节点基本信息

3-3-工作流程-脚本模式

  • 调度配置:设置该工作流的调度周期,需要配置的参数如下:
参数描述
生效日期选择任务生效日期
调度周期包括分钟、小时、天、周、月
任务依赖选择任务添加依赖

3-7-工作流程-脚本模式

  • 操作记录:记录节点更新情况

3-8-工作流程-脚本模式

三、开发组件配置

开发组件支持数据集成、数据开发、数据质量三类。

使用教程:

1、双击工作流程目录下需要编辑的工作流

2、进入画布,拖动左侧组件栏,拖动组件到画布中,编辑组件的名称和描述信息,点击“保存”。

3、双击开发组件节点,进入该组件配置页面。

参数描述
离线同步面向业务数据库层面的批量数据采集,详细配置参考离线同步
接口采集面向业务系统的接口数据采集,详细配置参考接口采集
SQL组件数据开发SQL组件
数据质量数据质量组件,详细配置参考数据质量

四、连线属性

各个组件根据业务逻辑关系使用连线形成上下游关系,虎符提供3种连线关系,并以颜色区别:

(1)上一节点运行成功,则执行下一节点;

(2)上一节点运行失败,则执行下一节点;

(3)总是执行下一节点。

注:开始节点的连线“只有总是执行下一节点”这一条属性

资源管理

用户可以通过资源管理功能,将写好的自定义函数以jar文件形式上传至虎符平台,在离线任务运行时调用

使用教程

一、上传资源

1、登录虎符平台

2、选择数据开发 > 实时开发> 资源管理进入资源列表页面。

3、在工作目录中右键单击上传按钮,进入弹窗页面配置各项参数。

1644809375906_image

二、引用资源

函数中引用资源

如果现有的系统内置函数无法满足您的需求,离线计算支持创建自定义函数。将实现逻辑的资源Jar包上传至项目空间下,便可在创建自定义函数的时候进行引用资源。详细操作请参见函数管理

三、删除资源

如果需要删除一个资源,在资源目录中右键单击该资源,选择删除即可。

注: 删除资源后,引用该资源的函数或代码在运行时会报错,故请慎重操作。

函数管理

用户可以通过函数管理功能,上传自定义Jar文件作为资源,发布自定义函数,并进行注册使用。同时以文件树形式对函数资源统一进行管理。

使用教程

前提:需要在资源目录中上传好所需资源jar包,具体操作看资源目录>上传资源文档

一、自定义函数

1、登录虎符平台

2、选择数据开发 >离线时开发 >函数管理进入资源列表页面。

3、在工作目录中点击新建函数按钮,进入弹窗页面配置各项参数。

4、填写完成后,提交后函数创建成功,之后即可在SQL代码中使用此函数。

image-20220214173618627

参数描述
函数名称在SQL脚本中使用的函数名称,名称需唯一,2-32个字符,支持英文字母、数字和下划线
类名资源中需要运行的MainClass路径
资源在资源管理中定义的资源名称
用途函数的用途描述,128个字符以内,支持中文、英文字母、数字和下划线
命令格式函数名称(参数类型1,参数类型2,...)
父级目录该函数所在的的父级目录
参数说明该函数使用的参数说明,128个字符以内,支持中文、英文字母、数字和下划线

二、查看函数及引用

单击函数名,可以查看函数的类型、命令格式以及参数说明。可在离线开发任务中,通过代码编写引用函数。

三、删除函数

在函数目录页面找到需要删除的函数,右键单击,在菜单栏选择删除,即可删除该函数。

任务运维

在任务运维,可以查看离线任务的运行状态以及日志,支持重跑任务终止运行等操作,也可以重要的任务设置关注等。

7-7-任务运维

使用教程

1、登录虎符平台

2、选择运维中心 > 实时开发 进入运维列表页面,查看任务运行状态和基础信息。

3、可对您需要的任务,进行查看任务详情,查看日志、历史任务、关注、重跑/终止运行等操作

  • 任务详情。查看该离线任务基本信息及运行情况。
  • 查看日志。在操作栏点击“查看日志”,该离线数据同步任务的详情,点击同步来源数据表的名称,则自动定位至该数据表同步的日志信息,方便问题排查。
  • 关注。在操作栏点击“关注”,可方便后期搜索栏检索关注任务
  • 历史任务。查看该离线任务下的所有以往的历史调度信息,如任务详情和查看日志。
  • 重跑/终止运行。可对离线任务进行重跑或者终止等操作。

4、设置监控。在列表中点击更多 > 设置监控,进入弹窗页面配置各项参数。

7-5-任务运维

参数描述
监控主题默认值,离线开发工作流程
实时开发任务默认值,需要监控的离线开发任务名
报警原因触发报警的条件
通知人虎符注册的用户角色
通知方式支持以邮件方式通知用户

实时计算

实时开发

实时开发支持向导模式与脚本模式(Flink、FlinkSQL)两种任务开发方式。在脚本模式中Flink类型的任务需要编写相应代码,打包上传至虎符后来进行调度运行,该类型可以以更加灵活的方式来开发各种更加复杂类型的指标,缺点则是上手难度高。FlinkSQL任务类型则以SQL脚本的方式来快速完成开发,使开发方式更加简单便捷。而在向导模式中则对脚本进一步封装,用户只需利用拖拉拽形式就可以完成指标的开发。

Flink类型

在使用Flink类型的开发模式时,用户需要确保已近上传了相关的jar文件(需包含Flink代码与相关依赖资源)至虎符,具体的上传方法参见资源管理

使用教程

一、创建工作目录及实时任务

1、登录虎符平台

2、选择数据开发 > 实时开发 进入实时开发界面。

3、在实时开发目录中点击新建工作目录,填写需要建立的目录名称

4、在工作目录中右键单击,选择新建任务 >脚本模式 >Flink进入弹窗页面配置各项参数。

3-1-实时开-脚本模式-Flink

参数描述
任务名称2-32个字符,支持中文、英文字母、数字和下划线
任务类型实时开发任务类型
资源资源管理模块中上传的资源名称
mainClass资源中需要运行的MainClass路径
父级目录父级目录名称
描述128个字符以内,支持中文、英文字母、数字和下划线

二、查看任务详情

1、在工作目录中双击创建好的实时开发任务,进入开发任务页面

2、在开发任务页面可以对相关配置信息进行二次修改并保存

3、点击锁定状态则无法进行修改操作,需进行解锁操作

4、在右侧列表点击查看任务详情,可以看到任务名称及创建修改时间

三、设置环境参数。

环境参数可以确定该Flink的运行的资源占用及分配情况,合适的参数可以时Flink任务运行更加高效。虎符中默认给定了一些常用参数的配置规则,用户也可以自定义配置其他参数

1、进入Flink实时开发任务页面

2、在右侧列表点击环境参数

3、以文本形式配置各项参数值(以#开头为注释行标识),配置完毕后将自动保存

参数描述
jobmanager.execution.failover-strategyjob失败恢复策略
jobmanager.memory.process.sizeJobManager运行时总内存大小
taskmanager.memory.process.sizeTaskManager运行时总内存大小
parallelism.default默认并行度
taskmanager.numberOfTaskSlots每个TaskManager的并行度

四、设置调度配置

设置调度配置可以指定运行该Flink任务的时间周期

1、进入Flink实时开发任务页面

2、在右侧列表点调度配置

3、填写生效区间。生效区间支持在日期范围内每天调度与周一至周五调度

4、填写日期范围。选择日期范围输入框,可以需要配置调度的时间范围。点击左下角“今天”,可以设置调度范围为今天开始后的所有天数。

5、填写时间范围。选择运行该Flink任务的时间范围

五、发布运行

前提:发布运行前请确认您已经上传了正确的jar文件至虎符的资源管理模块并确认上述配置信息正确无误

1、进入Flink实时开发任务页面

2、在右上角点击发布,提示发布成功

3、在右上角点击运维进入运维中心,查看刚才发布的任务状态及运行日志,详见任务运维

FlinkSQL类型

在使用FlinkSql类型的开发模式时,如果在脚本使用了自定义函数,需要您确保已近上传了相关的jar文件至虎符并注册了该函数,具体的方法参见资源管理函数管理

使用教程

一、创建工作目录及实时任务

1、登录虎符平台

2、选择数据开发 > 实时开发进入列表页面。

3、在工作目录中右键单击,选择新建任务 >脚本模式 >FlinkSQL进入弹窗页面配置各项参数。

参数描述
任务名称2-32个字符,支持中文、英文字母、数字和下划线
任务类型实时开发任务类型
父级目录父级目录名称
描述128个字符以内,支持中文、英文字母、数字和下划线

二、配置源表,结果表,维度表

2-4-实时开-脚本模式-FlinkSQL

1、在工作目录中双击创建好的实时开发任务,进入开发任务页面

2、在开发页面的右侧列表中选择源表,进行相关配置,具体信息如下表

源表:将外部系统的表映射为FlinkSQL需要的源表结构。

注:在配置源表时请确保用户在数据资产 > 数据源管理已经配置好相关数据源。目前源表类型支持Kafka类型,可以在配置表单中数据预览中查看是否正确连接并获取到数据

参数描述
类型源表类型目前只支持Kafka
数据源在数据资产 > 数据源管理中配置的数据源
Topic需要连接的Kafka主题
映射表由Kafka中的topic映射而成的,可以在SQL中使用它。
字段映射表的字段信息。只有当topic中的数据为json格式时,才可以自动映射成相应字段
Offsetlatest:从Kafka Topic内最新的数据开始消费
earliest:从Kafka Topic内最老的数据开始消费
时间特征ProcTime:按照Flink的处理时间处理
EventTime:按照流式数据本身包含的业务时间戳处理

3、在开发页面的右侧列表中选择结果表,进行相关配置,具体信息如下表

结果表:将计算结果存放入外部系统的表

注:在配置源表时请确保用户在数据资产 > 数据源管理已经配置好相关数据源。目前结果表类型支持Kafka,Mysql,Hive,Hbase,可以在配置表单中的数据预览中查看是否正确连接并获取到数据

参数描述
类型结果表类型目前支持Kafka,Mysql,Hive,Hbase
数据源在数据资产 > 数据源管理中配置的数据源
外部系统的表名
映射表Flink中的存放计算结果的表,可以在SQL中使用它。
字段映射表的字段信息。
更新模式追加:以仅追加的模式写入外部系统
更新:写入外部系统时可以更新结果,需要有主键

4、在开发页面的右侧列表中选择维度表,进行相关配置,具体信息如下表

维度表:FlinkSQL中需要用到的维度表

注:在配置源表时请确保用户在数据资产 > 数据源管理已经配置好相关数据源。目前结果表类型支持Kafka,Mysql,Hive,Hbase,可以在配置表单中的数据预览中查看是否正确连接并获取到数据

参数描述
类型结果表类型目前支持Kafka,Mysql,Hive,Hbase
数据源在数据资产 > 数据源管理中配置的数据源
外部系统的表名
映射表Flink中的存放计算结果的表,可以在SQL中使用它。
字段映射表的字段信息。
主键映射表的主键信息
缓存策略目前只支持LRU(最近最少使用策略)
缓存大小缓存大小,以行为单位
缓存超过时间缓存超过时间,以毫秒为单位

三、编写SQL脚本

2-12-实时开-脚本模式-FlinkSQL

1、在工作目录中双击创建好的实时开发任务,进入开发任务页面

2、在右侧列表中的任务详情,可以看到该任务创建人及最近修改时间等信息

3、在空白页面中编辑SQL脚本

4、点击上方工具栏的代码检查,如果出现脚本中出现语法等错误将会有提示信息

5、点击保存(注:保存后可以在底部Tab页中可以查看历史版本的SQL脚本信息)

6、点击锁定状态则无法进行修改操作,需进行解锁操作

三、设置环境参数。

2-10-实时开-脚本模式-FlinkSQL

环境参数可以确定该Flink的运行的资源占用及分配情况,合适的参数可以时Flink任务运行更加高效。虎符中默认给定了一些常用参数的配置规则,用户也可以自定义配置其他参数

1、进入Flink实时开发任务页面

2、在右侧列表点击环境参数

3、以文本形式配置各项参数值(以#开头为注释行标识),配置完毕后将自动保存

参数描述
jobmanager.execution.failover-strategyjob失败恢复策略
jobmanager.memory.process.sizeJobManager运行时总内存大小
taskmanager.memory.process.sizeTaskManager运行时总内存大小
parallelism.default默认并行度
taskmanager.numberOfTaskSlots每个TaskManager的并行度

四、设置调度配置

设置调度配置可以指定运行该Flink任务的时间周期

2-11-实时开-脚本模式-FlinkSQL

1、进入Flink实时开发任务页面

2、在右侧列表点调度配置

3、填写生效区间。生效区间支持在日期范围内每天调度与周一至周五调度

4、填写日期范围。选择日期范围输入框,可以需要配置调度的时间范围。点击左下角“今天”,可以设置调度范围为今天开始后的所有天数。

5、填写时间范围。选择运行该Flink任务的时间范围

五、调试运行

代码调试用于校验业务逻辑或语法的正确性,由于时实时开发,在调试运行前需要提前上传好源表数据,目前虎符支持以csv文件上传与采集线上数据的方式进行上传。

1、进入Flink实时开发任务页面

2、在顶部菜单栏中选择调试

3、在左侧列表中选择需要上传数据的数据表

4、上传数据

  • csv文件上传:选择下载模板,在下载好的csv文件中填报数据并上传至虎符(文件支持扩展名 .csv,条数应小于1000条且不超过1MB; 文件仅支持UTF-8格式;)
  • 采集线上数据:采集kafka中的数据(该Kafka信息需要在源表中配置完成)

5、点击调试后可以在运行日志中查看调试的结果

注:

1、上传自定义数据、模拟作业运行、检查输出结果,最终验证业务逻辑的正确性,仅需上传源表数据,维表直接读取配置,无需上传 2、线上数据采集时长为30秒,若超过1分钟数据仍未采集至指定条数,则采集停止

六、发布运行

1、进入Flink实时开发任务页面

2、在右上角点击发布,提示发布成功

3、在右上角点击运维进入运维中心,查看刚才发布的任务状态及运行日志,详见任务运维

注:发布前请确认

  • 确保任务名称唯一且合法
  • 已经设置了正确的配置信息
  • SQL脚本进行了代码检查这一环节
  • 代码调试后日志无明显错误信息
资源管理

用户可以通过资源管理功能,将写好的自定义函数或是Flink代码以jar文件形式上传至虎符平台,在实时任务运行时调用

使用教程

一、上传资源

1、登录虎符平台

2、选择数据开发 > 实时开发> 资源管理进入资源列表页面。

3、在工作目录中右键单击上传按钮,进入弹窗页面配置各项参数。

1644809375906_image

二、引用资源

  • 函数中引用资源

如果现有的系统内置函数无法满足您的需求,实时计算支持创建自定义函数。将实现逻辑的资源Jar包上传至项目空间下,便可在创建自定义函数的时候进行引用资源。详细操作请参见函数管理

  • 在Flink任务中引用资源

实时计算支持通过引用资源创建Flink任务,用户手动配置资源、mainclass、父级目录,可快速完成实时计算任务的创建。详细操作请参考任务管理中的新建Flink任务

三、删除资源

如果需要删除一个资源,在资源目录中右键单击该资源,选择删除即可。

注: 删除资源后,引用该资源的函数或代码在运行时会报错,故请慎重操作。

函数管理

用户在上传了自定义函数的代码资源后,需要对函数进行注册才能进行使用。函数管理模块提供了可视化界面来帮助用户对函数统一的管理与注册。

前提:需要在资源目录中上传好所需资源jar包,具体操作看资源目录>上传资源文档

使用教程

一、自定义函数

1、登录虎符平台

2、选择数据开发 > 实时开发 >函数管理进入资源列表页面。

3、在工作目录中点击新建函数按钮,进入弹窗页面配置各项参数。

4、填写完成后,提交后函数创建成功,之后即可在SQL代码中使用此函数。

image-20220214173618627

参数描述
函数名称在SQL脚本中使用的函数名称,名称需唯一,2-32个字符,支持英文字母、数字和下划线
类名资源中需要运行的MainClass路径
资源在资源管理中定义的资源名称
用途函数的用途描述,128个字符以内,支持中文、英文字母、数字和下划线
命令格式函数名称(参数类型1,参数类型2,...)
父级目录该函数所在的的父级目录
参数说明该函数使用的参数说明,128个字符以内,支持中文、英文字母、数字和下划线

二、查看函数及引用

单击函数名,可以查看函数的类型、命令格式以及参数说明。可在实时开发任务中,通过代码编写引用函数。

三、删除函数

在函数目录页面找到需要删除的函数,右键单击,在菜单栏选择删除,即可删除该函数。

任务运维

在任务运维,可以查看实时任务的运行状态以及日志,支持重跑任务终止运行等操作,也可以重要的任务设置关注等。

使用教程

1、登录虎符平台

2、选择运维中心 > 实时开发 进入运维列表页面,查看任务运行状态和基础信息。

3、可对您需要的任务,进行查看任务详情,查看日志、关注、重跑/终止运行等操作

  • 任务详情。查看该离线任务基本信息及运行情况。
  • 查看日志。在操作栏点击“查看日志”,该离线数据同步任务的详情,点击同步来源数据表的名称,则自动定位至该数据表同步的日志信息,方便问题排查。
  • 关注。在操作栏点击“关注”,可方便后期搜索栏检索关注任务
  • 重跑/终止运行。可对离线任务进行重跑或者终止等操作。

4、设置监控。在列表中点击更多 > 设置监控,进入弹窗页面配置各项参数。

7-5-任务运维

参数描述
监控主题默认值,实时开发任务
实时开发任务默认值,需要监控的实时开发任务名
报警原因触发报警的条件
通知人虎符注册的用户角色
通知方式支持以邮件方式通知用户

指标管理

数据质量

数据质量能够监控数据在加工过程中存在的异常情况,以及产生的脏数据,系统支持自动拦截任务,并发生告警,有效阻断脏数据向下游蔓延,避免因数据问题影响业务决策。

概览

概览页展示数据质量的整体概况,总体分为5部分,监控总体统计、数据质量问题分布、数据质量趋势统计、数据质量问题表Top10、数据质量跨层访问情况。

1-1数据质量-概览

参数描述
数据质量问题统计平台未处理的所有质量问题总数
跨层访问数数仓模型按照分层开发,统计所有跨层访问的总数
监控覆盖率配置的监控任务占总数据模型的百分比
监控表/监控字段统计监控的数据表总数,监控字段总数
数据表信息维护率数据表与字段中文信息维护率
数据质量问题分布数据质量按照天、周、月时间周期统计,包含完整性、准确性、一致性、及时性
数据质量趋势数据质量趋势统计每天质量出现的次数
数据质量问题表Top10从高到底排序数据表出现问题的总排行
数据质量跨层访问数各层级之间跨层访问次数统计

监控规则

监控规则以数据表为出发进行质量规则配置。

使用教程

一:创建规则

1、登录虎符平台

2、选择数据质量 > 监控规则进入列表页面。

3、选择数据表点击配置监控规则进入规则页面。

2-3监控规则

4、单击创建规则进入弹窗配置各项参数。

模板规则:系统内置各类校验规则模板,用户可自主选择使用。

2-4监控规则

参数描述
规则名称2-32个字符,支持中文、英文字母、数字和下划线
规则类型规则类型分为表级规则、字段级规则
规则字段规则字段支持多选
规则模板规则模板支持20类
描述128个字符以内,支持中文、英文字母、数字和下划线

规则模板

参数描述
完整性约束指定字段唯一值的行数和设定的规则进行比较
空值约束指定字段唯一值的行数与总行数的比率和设定的规则进行比较
空值占比约束指定字段空值的行数和设定的规则进行比较
取值范围约束指定字段空值的行数与总行数的比率和设定的规则进行比较
极大值约束指定字段重复值的行数和设定的规则进行比较
极小值约束指定字段重复值的行数与总行数的比率和设定的规则进行比较
平均值约束指定字段的平均值和设定的规则进行比较
总值约束指定字段的和值和设定的规则进行比较
长度约束指定字段的最大值和设定的规则进行比较
代码长度约束指定字段的最小值和设定的规则进行比较
正则表达式约束身份证号码校验
正则表达式约束电话号码校验
日期值约束检查对象是否存在超出当前日期或指定日期的值
枚举值约束检查对象的值是否满足枚举值内
空字符串约束检查对象的值是否存在空字符串
空值或空字符串约束检查对象是否存在空值或者空字符串二者之一
特殊字符约束检查对象是否存在特殊字符
重复值约束检查对象是否存在重复值
及时性约束检查表数据是否存在延迟(天级别)
代码长度约束当代码长度固定时,检测代码是否有其他长度值
日期值约束检查对象是否存在超出当前日期或指定日期的值
枚举值约束检查对象的值是否满足枚举值内
空值占比约束若空值占比波动较大,超过了某个既定值,则可能这个字段的记录出现了问题,信息出现缺失

自定义规则:通过配置方式完成数据质量规则校验,扩展性较强。

2-5监控规则

参数描述
规则名称2-32个字符,支持中文、英文字母、数字和下划线
规则字段规则字段支持多选
统计方式统计方式支持:avg、count、max、min、sum、length
比较方式比较方式支持:大于、大于等于、等于、小于、小于等于、不等于、属于、不属于
期望值期望值与比较方式配合使用,填写字段对比的目标阈值
描述128个字符以内,支持中文、英文字母、数字和下划线

二:设置调度

设置调度面向当前数据表的所有规则

1、进入数据质量 > 监控规则 > 配置监控规则进入列表页面。

2、单击右上角设置调度配置各项参数。

2-6监控规则

参数描述
调度状态默认不选中;选中冻结表示调度任务不运行。
生效日期表示调度任务的运行时间区间
调度周期支持分钟、小时、天、周、月

三、试跑

试跑为一次性任务,用于检验当前配置的模板是否符合预期,运行结束之后可在任务管理页面中查看结果。

1、进入数据质量 > 监控规则 > 配置监控规则进入列表页面。

2、单击右上角试跑即开始运行。

2-3监控规则

任务管理

任务管理为数据质量所运行的所有任务记录,任务筛选支持任务频率、任务状态、模糊搜索。

使用教程

一:任务详情

1、登录虎符平台

2、选择数据质量 > 任务管理进入列表页面。

3、选中某个数据表点击任务详情进入任务详情页面。

3-1任务管理

4、任务详情展示所有规则所运行的记录、状态以及告警数。

二:规则配置

1、登录虎符平台

2、选择数据质量 > 任务管理进入列表页面。

3、选中某个数据表点击规则配置进入监控规则页面重新配置。

三:任务结果

1、登录虎符平台

2、选择数据质量 > 任务管理进入列表页面。

3、选中某个数据表点击任务结果进入任务结果页面。

3-3任务管理

数据资产

数据地图

数据地图提供方便快捷的数据搜索服务

1644809376672_image

数据地图搜索结果分类包括:规范设计、数据集成、数据开发、指标管理、数据质量、数据服务。

image-20220119175433930

全域数据

全域数据汇聚了平台内所有数据表,支持一站式查看数据详情、血缘、数据等信息。

1644809376775_image

数据服务

数据服务旨在为企业搭建统一的数据服务总线,帮助企业统一管理对内对外的API服务。数据服务提供快速将数据表生成数据API的能力,涵盖API发布、管理、运维全生命周期管理,帮助您简单、快速、低成本、低风险地实现微服务聚合、前后端分离、系统集成,向合作伙伴、开发者开放功能和数据。

概览

概览页分为全局概览我的概览,数据开发工程师只能看到我的概览,管理员则能够看到所有。

全局概览统计了平台内API总数、已申请数、累计调用次数、失败次数、申请统计、调用次数趋势统计、调用用户数TOP、调用量TOP、失败次数TOP、错误类型分布统计信息。

1-1数据服务概览

我的概览统计了当前用户使用情况包括我的发布数、申请数、累计调用次数、失败次数、我的申请情况、调用次数趋势统计、调用量TOP、失败次数TOP、错误类型分布统计信息。

API市场

API市场是当前工作空间下用户发布的所有API接口,用户可在市场内选择符合需求的API进行申请使用。同时支持对市场内的API进行测试、导出API文档等操作。

API管理

API管理用于管理当前账号创建、注册API接口,以及申请使用API市场中的接口管理功能。包含我的API我的申请功能。

我的API

使用教程

一:新建API

1、登录虎符平台

2、选择数据服务 > API管理进入列表页面。

3、单击右上角新建API进入弹窗选择创建API类型。

参数描述
生成API快速将关系型数据库和NoSQL数据库的表生成数据API接口
注册API将已有的API注册至数据服务,进行统一管理、发布和对接
指标API将已开发的指标注册至数据服务,帮助指标对外快速对外服务

生成API

1、向导模式

向导模式支持单张表的对外输出

3-3API管理-我的API

参数描述
API名称2-32个字符,支持中文、英文字母、数字和下划线
API PathAPI接口路径,如:/getUserById
API协议API协议支持复选:HTTP、HTTPS
API分组下拉框选择API分组目录
描述128个字符以内,支持中文、英文字母、数字和下划线
数据源下拉框选择已注册的数据源名称
数据表下拉框选择数据源内的数据表
参数选择参数选择为数据表中的字段,均可设置为请求参数或返回参数
请求参数设置请求参数支持自定义命名,且支持多种运算操作符
返回参数设置返回参数支持自定义命名,且支持对返回的数据类型设置

2、脚本模式

脚本模式以编写SQL的方式对外输出,支持多表联合查询。

3-4API管理-我的API

参数描述
API名称2-32个字符,支持中文、英文字母、数字和下划线
API PathAPI接口路径,如:/getUserById
API协议API协议支持复选:HTTP、HTTPS
API分组下拉框选择API分组目录
描述128个字符以内,支持中文、英文字母、数字和下划线
数据源下拉框选择已注册的数据源名称
数据表下拉框选择数据源内的数据表
查询SQLSQL可自定义编写,仅支持select
请求参数设置请求参数支持自定义命名,且支持多种运算操作符
返回参数设置返回参数支持自定义命名,且支持对返回的数据类型设置

注册API

注册API是将已有的API注册至数据服务。

3-6API管理-我的API

参数描述
API名称2-32个字符,支持中文、英文字母、数字和下划线
API PathAPI接口路径,如:/getUserById
API协议API协议支持复选:HTTP、HTTPS
API分组下拉框选择API分组目录
描述128个字符以内,支持中文、英文字母、数字和下划线
协议下拉框选择HTTP、HTTPS
URL接口访问路径
超时时间设置后端超时时间
请求方式请求方式选择GET、POST、PUT、DELETE
Headers
请求参数请求参与依据Headers选择进行按需配置

指标API

指标API是将已开发的指标注册至数据服务,帮助指标对外快速对外服务。

3-9API管理-我的API

我的申请

我的申请是在api市场中申请使用的记录,可对已申请的记录进行管理。记录共分为5类状态。

参数描述
已授权查看已授权的API接口详情以及调用次数
待审批待审批状态用户可进行撤回操作
已撤回已撤回用于展示撤回操作的记录,用户可进行再次申请
已取消已取消是管理员对已经审批通过的API接口,进行了取消授权操作,用户可进行再次申请
未通过未通过是管理员驳回了申请,用户可进行再次申请

4-1API管理-我的申请

API调用

API调用支持简单认证调用方式,每个用户都有一个专属apiToken,用于调用API接口,同时系统也会记录该apiToken调用接口的明细信息。

5-1API调用

授权审批

授权审批只有管理员可访问,用于对申请API的请求进行审批管理,API接口申请状态有5类。

参数描述
待审批管理员可之间进入审批管理,选择是否通过
已授权已授权的API接口管理员可进行取消授权操作
已取消已取消是管理员审批通过之后,又进行了取消授权操作
未通过未通过是管理员驳回了申请,用户可进行再次申请
已撤回已撤回状态是用户申请之后又进行了撤回操作,管理员可查看详情

6-1授权审批

安全管理

安全管理只有管理员可访问,用于对已授权的API进行安全策略管理,管理员可查看API已授权的用户数与累计调用总数。通过点击编辑授权对授权的用户进行授权管理。

7-1安全管理

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值