产品介绍
产品概述
虎符是一站式工业“人机料法环”多态数据开发与资产化管理系统,用于构建工业数据资源体系,让企业的全域数据资产在线,为数据挖掘、智能排产、数字孪生等基于数据的智能应用提供数据支撑,帮助企业掌握数据资产状态,为各业务提供统一、高效的数据服务,奠定“智慧大脑”的基础。
产品架构
雪浪虎符提供八大功能模块,支持对企业全域数据加工治理。功能模块包括:管理中心、规范设计、数据集成、数据开发、指标管理、数据质量、数据资产与数据服务。
产品功能
- 管理中心
提供平台的日常基础管理能力,包括定义平台开发模式、计算存储资源、用户角色管理、消息通知服务、企业门户设置等功能。
- 告警中心
用于对数据全生命周期进行监控告警,异常事件实时告警通知,管理着平台内所有配置的任务产生的告警信息。提供对数据集成、离线计算、实时计算、数据质量等多种类型的任务进行自定义告警配置,当监控的任务触发告警规则后,支持以邮件的方式通知相关人员。
- 规范设计
提供数据治理的规划设计功能,将业务和数据的需求转化为数据工程师可执行的规范与要求,功能包括主题域设计、数据标准、可视化建模、指标定义等,利于提高企业数据质量,统一口径与标准。
- 数据集成
提供对结构化、半结构化、非结构化数据的实时与增量采集,全部采用配置方式完成。功能包括离线采集、实时采集、接口采集、文件采集、对象存储、自定义表单、设备物联采集模块。
- 数据开发
具备海量数据实时、离线计算;支持流程化方式快速构建数据处理分析流程,支持对关系数据、时序数据、空间数据(BIM、GIS等)融合计算。
- 指标管理
零代码方式构建企业指标,通过规范化设计帮助企业指标统一计算口径与计算逻辑。
- 数据质量
数据全生命周期监控,数据处理全流程质量管控,异常事件实时通知。
- 数据资产
提供高效的元数据查询服务,支持查询并定位数据资产;数据地图与全域数据实现全文数据搜索与数据全景可视。
- 数据服务
提供高效便捷的API创建方式,实现API全链路的生命周期管理,支持API的安全访问管理,有效保障企业数据安全与高效使用。
应用场景
综合数据治理运营,提高数字化决策效率
场景:某公司是一家全球大型轮胎制造公司,生产端的各个分厂集中在亚太地区,销售端触达全球各地。
痛点:集团在日常生产经营过程中存在大量的指标报表需要查看,因生产链路长,业务系统多、数据分散、数据质量较低等因素;指标计算需要大量人工参与计算且计算周期较长。
解决方案:
- 数据集成:通过配置的方式将企业内分散的数据进行汇总
- 数据建模:通过对业务的理解,构建以业务为主题的数据模型
- 指标管理:基于采集的数据与模型的融合,通过配置化的方式完成指标创建
价值:
- 构建自动化的数据流:让数据自动流动,减少人为参与。
- 提高数据质量:规范约束数据质量,自动完成数据质量监控。
- 提高数据研发效率:抽象数据模型,支持更多场景。
企业数据治理,打造企业数据智能
场景:某公司为国内民用飞机制造商,在飞机制造过程中零部件高达130多万,且业务系统错综复杂。
痛点:在传统交付飞机过程中会配套大量纸质文件,但无法直观看到飞机状态信息做日常的管理与运维,则需要制造商交付一台数字飞机,能够实时查看飞机的变化以及零部件信息等。
解决方案:
- 数据集成:采集汇聚多源异构数据
- 数据治理:对企业内数据总体规划、设计、开发进行数据治理
- 模型设计:构建飞机的三维模型
- 数据与模型融合:将飞机三维模型与实时数据融合,构建数字飞机。
价值:
- 飞机数字化交付(线下转线上,结构化的交付内容,数字化的交付档案)。
- 生产过程的可视化和透明化,实现生产过程信息的全面集成。
- 飞机质量问题快速定位与检索。
- 数据变成资产,构建了飞机数据纪实载体。
使用指南
虎符使用简介
虎符数据资源管理平台是对企业内的全域数据进行全生命周期的管理,平台对管理与存储进行了拆分,用户可以自由选择底层的数据存储资源。数据治理支持底代码开发方式,以便于降低企业对大数据平台的使用门槛,帮助企业快速构建从数据接入到数据治理的智能数据系统,从而消除数据孤岛,统一数据标准,加快数据变现,实现数字化转型。
虎符的用户
虎符用户主要为企业信息化部门的工程师,虎符在日常使用过程中推荐设置三类角色,可基于职能进行划分,分别是管理员、开发者、访客;如果三类角色无法满足需求,用户可新增自定义角色。
- 管理员
管理员是平台内最高管理者,拥有绝对的管理权限;包括工作空间的创建、底层数据存储资源的选择与切换、角色账号管理、数据治理所有功能的查看、审核、编辑等
- 开发者
面向数据开发工程师,基于管理员设计好的工作空间与存储,进行日常的数据开发工作,功能权限包括规范设计、数据集成、数据开发、指标管理、数据质量、数据资产、数据服务功能
- 访客
访客仅具备只读权限,可按需分配查看权限。
管理中心
存储资源
在使用虎符之前平台管理员需先进行存储资源的配置,存储资源的选择需根据实际业务场景选择符合需求的数据库,用于存储数据治理过程中的数据,虎符支持的存储资源有:Hive、PostgreSql。
创建Hive存储资源
使用教程
1、登录虎符平台
2、在虎符首页右上角点击用户头像,选择管理中心 > 存储管理
3、在存储管理页面,单击右上角新建存储资源按钮,在新建存储资源中,选择Hive,配置各项参数
参数 | 描述 |
---|---|
存储资源类型 | 系统对存储资源的支持,支持Hive、PostgreSql |
存储资源名称 | 2-32个字符,支持中文、英文字母、数字和下划线 |
存储资源描述 | 128个字符以内,支持中文、英文字母、数字和下划线 |
服务器 | 数据库对应的服务器IP地址 |
端口 | 数据库对应的端口 |
用户名 | 数据库访问账号 |
密码 | 数据库访问密码 |
连接信息 | 连接信息是基于填写的信息,自动完成拼装 |
4、点击连接测试测试数据源是否可以和虎符进行正常的连通。
如果连接测试失败,您可以根据网络连通常见问题进行排查。详细内容,请参见网络连通的常见题。
5、测试成功后,单击确定,完成Hive存储资源的创建。
创建PostgreSql存储资源
使用教程
1、登录虎符平台
2、在虎符首页右上角点击用户头像,选择管理中心 > 存储管理
3、在存储管理页面,单击右上角新建存储资源按钮,在新建存储资源中,选择PostgreSql配置各项参数
工作空间
为了保障数据治理的安全与稳定可靠,工作空间采用逻辑隔离,用户可以按需创建多个工作空间。
创建工作空间
使用教程
1、登录虎符平台
2、在虎符首页右上角点击用户头像,选择管理中心 > 工作空间
3、在工作空间页面,单击右上角新建工作空间按钮,在新建工作空间页面中,配置各项参数
参数 | 描述 |
---|---|
空间名称 | 2-32个字符,支持中文、英文字母、数字和下划线 |
存储资源 | 存储资源为工作空间提供存储能力,可以选择或者添加存储资源 |
切换存储资源
随着企业业务的发展,当前的存储已不适合继续支撑数据的存储,则需要进行存储资源的切换,切换存储,系统会将之前的所有数据与元数据进行一次克隆,存储在新的存储资源上,并且会保留之前的工作空间,以保证原存储能够继续执行日常工作。
注:切换存储资源风险较高,影响范围包括数据开发的脚本模式,若切换之后可能存在脚本不可用情况,其他功能可正常运行。
使用教程
1、在工作空间列表中点击列表中的切换存储按钮
参数 | 描述 |
---|---|
空间名称 | 2-32个字符,支持中文、英文字母、数字和下划线 |
原存储资源 | 系统显示当前工作空间的存储资源 |
目标存储资源 | 选择需要切换到的目标存储资源 |
删除工作空间
删除工作空间风险较高,在删除工作空间时需要进行二次确认。
使用教程
1、在工作空间列表中点击列表中的删除按钮
2、在删除弹窗中需输入工作空间名称做二次确认删除。
用户管理
用户管理分为角色管理和账号管理两个模块,角色系统默认提供一个系统管理员,其他类型角色用户可自定义创建。
角色管理
使用教程
1、登录虎符平台
2、在虎符首页右上角点击用户头像,选择管理中心 > 用户管理
3、在用户管理页面选择角色管理,单击右上角新建角色按钮,配置角色各项参数。
参数 | 描述 |
---|---|
角色名称 | 2-32个字符,支持中文、英文字母、数字和下划线 |
角色描述 | 128个字符以内,支持中文、英文字母、数字和下划线 |
功能权限 | 依据功能列表进行勾选,菜单权限具备查看、编辑两个选项。 只有具备了查看权限才能具备编辑权限 |
账号管理
账号的创建可直接关联角色,此时的账号只能登录虎符,无法进入工作空间进行开发,需要为账号分配工作空间权限。
使用教程
1、在用户管理页面内,选择账号管理,单击右上角“新建账号”按钮,配置账号各项参数。
参数 | 描述 |
---|---|
账号 | 2-32个字符,支持中文、英文字母、数字和下划线 |
登录密码 | 8-32个字符,至少包含大小写字母、数字和特殊字符中的2种 |
确认登录密码 | 8-32个字符,至少包含大小写字母、数字和特殊字符中的2种 |
姓名 | 2-32个字符,支持中文、英文字母、数字和下划线 |
手机号 | 11位用户手机号 |
邮箱 | 用户邮箱 |
角色 | 下拉框选择用户角色 |
部门 | 2-32个字符,支持中文、英文字母、数字和下划线 |
职位 | 2-32个字符,支持中文、英文字母、数字和下划线 |
权限管理
空间权限
空间权限是赋予用户所能进入的开发环境。
使用教程
1、登录虎符平台
2、在虎符首页右上角点击用户头像,选择权限中心 > 空间权限
3、在列表中选择工作空间列,单击添加选择给该账号赋予的空间权限。
数据权限
数据权限是基于用户在某一个工作空间内,所能查看或编辑的数据表,默认用户能查看并编辑所有数据表。
使用教程
1、登录虎符平台
2、在虎符首页右上角点击用户头像,选择权限管理 > 数据权限
3、在列表中单击用户前面的“+”,会显示用户当前所有的工作空间,每个工作空间都支持查看权限与编辑权限
4、点击编辑出现的弹窗则可以在当前工作空间下用户可查看或编辑的数据表。
通知管理
通知管理用于配置基础的通知服务,基于此服务对外发送消息。支持邮件服务。
使用教程
1、登录虎符平台
2、在虎符首页右上角点击用户头像,选择通知管理配置各项参数。
参数 | 描述 |
---|---|
邮箱服务器类型 | 系统默认采用SMTP类型 |
发件人昵称 | 邮件对外发送的默认称呼,2-32个字符,支持中文、英文字母、数字和下划线 |
邮箱服务器 | 邮箱服务器地址 |
端口 | 邮箱服务器端口 |
用户名 | 邮箱服务器用户名 |
密码 | 邮箱服务器密码 |
是否启动SSL | 请选择是否开启SSL(Secure Sockets Layer 安全套接字协议) |
企业设置
门户设置用于构建自定义的软件门户样式,包括浏览器的Title与登录页的名称和背景图。
使用教程
1、登录虎符平台
2、在虎符首页右上角点击用户头像,选择企业设置 > 门户设置 配置各项参数。
参数 | 描述 |
---|---|
公司名称 | 用户设置浏览器Title名称与登录之后左上角Logo名称 |
展示Logo | 登录系统之后显示的名称,建议尺寸80*80 |
登录名称 | 登录页展示的内容 |
背景图 | 登录页整体的背景图,建议尺寸1920*1080 |
系统设置
系统设置用户注册和更新系统License,注册之后会显示当前系统的可用天数与截至日期。
告警中心
告警配置
告警配置提供对数据集成、离线计算、实时计算、数据质量等多种类型的任务进行自定义告警配置,支持以邮件的方式通知相关人员。
使用教程
1、登录虎符平台
2、在虎符首页右上角点击用户头像,选择告警中心 > 告警配置。
3、新建告警配置:点击新建告警任务,填写对应信息。
参数 | 描述 |
---|---|
告警主题 | 可选择 离线计算、实时计算、数据质量、数据集成 四种类型的任务 |
通知人 | 选择需要通知的人的虎符账号 |
通知方式 | 目前只支持 邮件方式 |
数据表/任务表 | 选择相应主题下数据表或者已发布的任务 |
报警原因 | 选择需要触发报警的条件 |
注:虎符账号对应的邮箱必须是有效的。
离线计算
对于告警主题为离线计算的类型时,选择某个工作流程,可自定义配置告警规则,如:任务失败、任务完成、自定义设置任务运行超时、任务未完成等多种规则,当任务触发告警规则后,会通过邮件的方式通知相关人员。
实时计算
对于告警主题为实时计算的类型时,选择某个实时开发任务,可自定义配置告警规则,如:任务失败、任务完成、自定义设置任务运行超时、任务未完成等多种规则,当任务触发告警规则后,会通过邮件的方式通知相关人员。
数据质量
对于告警主题为数据质量的类型时,选择某张数据表,可自定义配置告警规则为SQL语句出错、数据质量问题,当任务触发告警规则后,会通过邮件的方式通知相关人员。
数据集成
对于告警主题为数据集成的类型时,选择某个任务类型,离线集成的任务类型有:离线采集、实时采集、接口采集,然后勾选某个任务名称。可自定义配置告警规则,如:任务失败、任务完成、任务同步失败条数超过某个阈值等告警规则,当任务触发告警规则后,会通过邮件的方式通知相关人员。
告警记录
告警记录用于管理平台内产生的所有告警信息。告警任务设置成功之后,每一次的发送记录都会在告警记录中显示,记录的状态会显示发送成功/发送失败。
规范设计
数据调研
数据调研即对业务的理解与数据的梳理将结果性内容配置到管理工具内。
数据Owner
数据owner用于定义数据的责任对象。
使用教程
1、登录虎符平台
2、选择规范设计 > 数据调研 > 数据Owner单击右上角新建Owner配置各项参数。
Owner名称可以为个人或者部门。
数据管理
在开始同步业务数据至虎符之前,需要将业务系统数据源注册至虎符,虎符支持的数据源有:
类别 | 数据源类型 |
---|---|
大数据 | MaxCompute、Hive、SAP HANA |
文件数据源 | HDFS |
关系型数据源 | MySQL、SQL Server、PostgreSQL、IBM DB2、Oracle、人大金仓、达梦 |
NoSQL数据源 | HBase、MongoDB |
消息队列数据源 | Kafka、MQTT |
时序数据库 | Open TSDB |
图数据库 | Dgraph |
使用教程
1、登录虎符平台
2、选择规范设计 > 数据调研 > 数据管理单击右上角新建数据源配置各项参数。
以Mysql为例
参数 | 描述 |
---|---|
数据源类型 | 此处为选择项,用于筛选需要注册的数据源类型 |
数据源名称 | 2-32个字符,支持中文、英文字母、数字和下划线 |
数据源描述 | 128个字符以内,支持中文、英文字母、数字和下划线 |
服务器 | 数据库所属的IP地址 |
端口 | 数据库所属的端口 |
数据库 | 数据库名称 |
用户名 | 数据库用户名 |
密码 | 数据库密码 |
主题设计
主题设计用于设计分层架构表达对数据的分类和定义。
主题设计默认分为四层,分别是:贴源层、公共层、应用层、其他层
分类 | 描述 |
---|---|
贴源层 | 存放未经过处理的原始数据至数据仓库系统,结构上与源系统保持一致,是数据仓库的数据准备区。主题设计主要围绕数据来源展开,例如MES系统、ERP系统等。 |
公共层 | 又称通用数据模型层,包括DIM维度表、DWD和DWS,由ODS层数据加工而成。主要完成数据加工与整合,建立一致性的维度,构建可复用的面向分析和统计的明细事实表,以及汇总公共粒度的指标。主题设计主要围绕业务属性展开,如生产、质量、销售、物流等。 |
应用层 | 存放数据产品个性化的统计指标数据。主题设计主要围绕应用展开,如BI、大屏、app等。 |
其他层 | 存放数据临时性模型与不符合数仓规范的模型,主题设计不做特殊要求。 |
使用教程
1、登录虎符平台
2、选择规范设计 > 数据调研 > 主题设计单击右上角新建主题配置各项参数。
参数 | 描述 |
---|---|
名称 | 主题中文名称,2-32个字符,支持中文、英文字母、数字和下划线 |
上级主题 | 主题的上一层级,默认可以选择贴源层、公共层、应用层、其他层 |
描述 | 主题的描述性信息,128个字符以内,支持中文、英文字母、数字和下划线 |
标准设计
数据标准用于制定企业层面共同遵守的数据含义与业务规则,它描述的是企业对某个数据的共同理解。
标准定义
标准定义的目录默认采用主题设计中的公共层主题;每一个标准只有在发布之后才能生效,可以被数据模型引用,支持系统自动监测平台内和已注册数据源的元数据是否符合标准。
新建标准
1、登录虎符平台
2、选择规范设计 > 标准设计 > 标准定义单击右上角新建标准配置各项参数。
参数 | 描述 |
---|---|
中文名称 | 标准中文描述,工作空间内唯一,2-32个字符,支持中文、英文字母、数字和下划线 |
英文名称 | 英文名称,工作空间内唯一,1-128个字符,支持英文字母、数字和下划线 |
主题 | 下拉框选择主题,选择内容为主题设计中的公共层主题 |
业务属性 | 业务属性为KV形式,可自定义数据业务属性 |
数据类型 | 支持字符型(String)、数字型(Number)、日期型(Date)、日期时间型(DataTime) |
数据长度 | 数据长度由用户自定义 |
度量单位 | 支持米(m)、平方米(㎡)、牛·米(N·m)、摄氏度(℃)、千克(kg)、瓦(W)、秒(s)、天(d)、分(min) |
是否允许为空 | 单选是/否 |
是否允许重复 | 单选是/否 |
取值范围 | 取值范围支持大于、小于、等于;逻辑关系支持或、且、非 |
枚举范围 | 枚举范围支持用户自定义编写 |
正则表达式 | 自定义编写正则表达式 |
数据Owner | 下拉框选择数据Owner,数据来源为数据调用 > 数据Owner中内容 |
一键导入
支持用户基于模板填写完成之后,将文件一键导入到平台内。若导入过程中出现重复系统会提示跳过或覆盖。
1、登录虎符平台
2、选择规范设计 > 标准设计 > 标准定义单击右上角一键导入进入弹窗。
3、下载模板
4、上传编辑好的模板至平台
标准映射
系统1分钟检查一次平台内的模型字段与已发布的标准是否匹配,匹配规则为英文名称相同。若匹配到则在“待绑定数量”列中会有数量提示,点击绑定详情进入绑定管理。
绑定详情
维护是将该标准的中文描述信息,更新到模型字段上;绑定是将标准与字段进行一个关联,绑定完成之后模型字段会打上标准标签。
1、在标准映射页面单击绑定详情,进入绑定详情页面。
2、单击维护,则标准的中文信息会更新模型字段中文信息。
3、单击绑定,则标准与模型字段完成绑定。
4、取消绑定,字段的中文信息不会更新,标准与模型字段的关联关系会断开。
映射报告
映射报告是将系统监测平台本身与已注册的数据源的元数据信息,计算命中(符合)标准的比例,形成一份监测报告。报告会显示命中的比例以及字段命中数量,同时支持报告下载。
模型设计
总线矩阵
总线矩阵是对企业数仓规划设计的一种方式,行是业务过程,列是公共维度;通过总线矩阵,可以对整个数仓的结构有一个清晰的了解,能够看出某个业务过程包含哪些通用维度。通过总线矩阵建设数据结构框架,可以处理不同的以过程为中心的维度模型的实现,且他们的实现严格遵守一致性维度。
总线矩阵通过创建事实行与维度列,通过构建行列之间的关系完成总线矩阵的设计。
使用教程
1、登录虎符平台
2、选择规范设计 > 模型设计 > 总线矩阵进入列表页面。
3、新建事实行,单击右上角新建事实行配置各项参数。
4、新建维度列,单击右上角新建维度列配置各项参数。
5、构建业务关系:业务关系是从业务角度理解,将行列之间的业务关系进行打勾关联(✅)。
6、构建逻辑关系:每个事实行与维度列都可以绑定一张数据表,用于构建逻辑关系,单击行或者列出现表关联,关联之后会出现链接标识,则代表关联成功(🔗)。
同时在矩阵中行列相交处,单击选择关联设置进行表之间的逻辑关联,
通过选择事实与维度的字段进行关联,完成表与表之间的逻辑关系。
贴源模型
存放未经过处理的原始数据至数据仓库系统,结构上与源系统保持一致,是数据仓库的数据准备区。主题设计主要围绕数据来源展开,例如MES系统、ERP系统等。
模型层级前缀为:ods_
公共模型
又称通用数据模型层,包括DIM维度表、DWD和DWS,由ODS层数据加工而成。主要完成数据加工与整合,建立一致性的维度,构建可复用的面向分析和统计的明细事实表,以及汇总公共粒度的指标。主题设计主要围绕业务属性展开,如生产、质量、销售、物流等。
模型层级前缀为:dwd_、 dws_、dim_
应用模型
存放数据产品个性化的统计指标数据。主题设计主要围绕应用展开,如BI、大屏、app等。
模型层级前缀为:ads_
其他模型
存放数据临时性模型与不符合数仓规范的模型,主题设计不做特殊要求。
模型层级前缀为:tmp_、其他
指标设计
指标设计用于将业务指标录入,并定义清楚指标的计算逻辑与业务逻辑;指标设计包含单指标与分析模型。
使用教程
我的指标
1、登录虎符平台
2、选择规范设计 > 指标定义 > 我的指标进入列表页面。
3、单击右上角新建指标配置各项参数。
参数 | 描述 |
---|---|
指标编码 | 系统自动生成 |
指标名称 | 指标中文名称,指标名称需唯一,2-32个字符,支持中文、英文字母、数字和下划线 |
业务创建人 | 需求来源人 |
数据Owner | 下拉框选择数据Owner,数据来源为数据调用 > 数据Owner中内容 |
主题 | 下拉框选择主题,选择内容为主题设计中的公共层主题 |
业务定义 | 当前指标的业务场景与业务描述,128个字符以内,支持中文、英文字母、数字和下划线 |
计算规则 | 当前指标的计算逻辑,128个字符以内,支持中文、英文字母、数字和下划线 |
指标类型 | 单一指标即为原子指标,多指标计算为衍生指标。 |
时效属性 | 采用离线开发的为离线指标,实时开发为实时指标。 |
数据来源表 | 可选择数据的来源数据表 |
指标性质 | 指标未进行汇总求和的为明细指标,否则为汇总指标 |
时间粒度 | 统计汇总的最小时间单位,明细指标不需要设置。 |
指标精度 | 指标小数点后保留几位。如1 |
指标单位 | 指标的单位如“个”、“元” |
可用分析维度 | 可用于分析的维度 |
同步配置 | 指标数据要同步的时间 |
我的分析模型
1、登录虎符平台
2、选择规范设计 > 指标定义 > 我分析模型进入列表页面。
3、单击右上角新建模型配置各项参数。
参数 | 描述 |
---|---|
模型名称 | 模型中文名称,模型名称需唯一,2-32个字符,支持中文、英文字母、数字和下划线 |
业务创建人 | 需求来源人 |
数据Owner | 下拉框选择数据Owner,数据来源为数据调用 > 数据Owner中内容 |
业务定义 | 当前指标的业务场景与业务描述,128个字符以内,支持中文、英文字母、数字和下划线 |
模型类型 | 汇总模型与明细模型 |
时效属性 | 仅支持离线 |
指标项 | 可选择已定义的我的指标 |
维度项 | 可用于分析的维度 |
同步配置 | 指标数据要同步的时间 |
数据集成
离线同步
离线同步通过简单的配置,基于自定义的调度周期,完成海量数据迁移,支持多种异构数据源的全量与增量同步。
离线同步支持的数据源类型:
数据源类型 | 读取 | 写入 | 描述 |
---|---|---|---|
Mysql | √ | √ | |
SqlServer | √ | √ | |
PostgreSql | √ | √ | |
DB2 | √ | √ | |
Oracle | √ | √ | |
Sap Hana | √ | √ | |
kingbase(人大金仓) | √ | √ | |
dm(达梦) | √ | √ | |
Hive | √ | √ | |
HBase | √ | √ | |
Mongodb | √ | √ | |
HDFS | √ | √ | |
Open TSDB | √ | √ | |
elasticsearch | √ | √ |
实时同步
实时同步通过简单的配置,达到数据秒级从源端到目标端的同步,为处理或分析流数据的程序构建数据流管道。
实时同步支持的数据源类型:
数据源类型 | 读取 | 写入 | 描述 |
---|---|---|---|
Kafka | √ | √ | |
MQTT | √ | -- | |
Mysql | √ | √ | |
SqlServer | -- | √ | |
PostgreSql | √ | √ | |
Oracle | √ | √ | |
kingbase(人大金仓) | -- | √ | |
dm(达梦) | -- | √ | |
Hive | -- | √ | 源端不支持CDC |
Mongodb | √ | -- |
接口采集
接口采集支持Http/Https、WebService协议与其他开放平台组件,通过配置的方式快速完成数据采集。
使用教程
Http/Https
1、登录虎符平台
2、选择数据集成 > 接口采集 > Http/Https进入列表页面。
3、点击新建任务配置各项参数。
类型 | 描述 |
---|---|
任务名称 | 任务名称,接口采集内唯一,2-32个字符,支持中文、英文字母、数字和下划线 |
请求方式 | 后端服务接口通信方式,单选 |
URL | 后端服务接口地址 |
认证 | 认证分为三种方式 API密钥:填写key与Value Token令牌:填写访问Token 自定义认证:通过上传认证jar包达到个性化的登录认证 |
请求头 | 请求头由关键字/值对组成,每行一对 |
请求体 | 请求体支持的类型有:Application/json类型;内容自定义json数据 |
结果变量名 | 结果变量由变量名与表达式组成,变量名可以为其他组件所引用, 表达式是对接口返回的结果集做自定义解析 |
变量关系 | 通过设置变量的层级关系,将有层级的json数据平展为数据库表,仅支持2种层级关系 |
计算结果 | 计算结果是展示结果变量解析是否正确 |
WebService
1、登录虎符平台
2、选择数据集成 > 接口采集 > WebService进入列表页面。
3、点击新建任务配置各项参数。
类型 | 描述 |
---|---|
任务名称 | 任务名称,接口采集内唯一,2-32个字符,支持中文、英文字母、数字和下划线 |
请求方式 | 后端服务接口通信方式,单选 |
URL | 后端服务接口地址 |
认证 | 认证分为三种方式 API密钥:填写key与Value Token令牌:填写访问Token 自定义认证:通过上传认证jar包达到个性化的登录认证 |
请求参数 | 请求体支持填写单值 |
结果变量 | 结果变量由变量名与表达式组成,变量名可以为其他组件所引用, 表达式是对接口返回的结果集做自定义解析 |
变量关系 | 通过设置变量的层级关系,将有层级的json数据平展为数据库表,仅支持2种层级关系 |
计算结果 | 计算结果是展示结果变量解析是否正确 |
文件采集
文件采集支持将xlsx、xls、csv内的数据进行采集。
使用教程
1、登录虎符平台
2、选择数据集成 > 文件采集进入列表页面。
3、点击上传文件进入弹窗,支持拖拽上传与点击上传,文件格式支持XLSX、XLS、CSV类型。
4、上传完成点击下一步查看上传数据是否符合预期。
5、配置映射数据表,将文件内的字段与数据表字段一一映射,若不存在数据表可进行一键建表。
对象存储
对象存储是面向非结构化数据的一项集采集、存储与管理的服务,提供海量、安全、低成本、高可靠的数据存储能力。
存储管理
存储管理用于管理对象的存储,在上传任何文件到存储服务之前,需先创建存储空间。
使用教程
一、新建存储空间
1、登录虎符平台
2、选择数据集成 > 对象存储 > 存储管理进入列表页面。
3、单击左上角新建存储空间配置各项参数
参数 | 描述 |
---|---|
空间名称 | 空间名称,名称需唯一,2-32个字符,支持中文、英文字母、数字和下划线 |
空间描述 | 空间的描述性信息,128个字符以内,支持中文、英文字母、数字和下划线 |
加密方式 | 加密方式默认不加密,可选择系统托管加密,系统会对每个对象使用不同的密钥进行加密保护 |
读写权限 | 私有:只有该存储空间的拥有者可以对该存储空间内的文件进行读写操作,其他人无法访问 公共读:只有该存储空间的拥有者可以对该存储空间内的文件进行读写操作,其他人可以读文件 公共读写:任何人都可以对该存储空间内的文件进行读写操作 |
二、查看
1、选择存储空间 > 查看进入弹窗页面。
系统显示该存储空间的基础数据与基础设置
二、编辑
1、选择存储空间 > 编辑进入弹窗页面,存储空间4项配置都支持编辑。
三、删除
1、选择存储空间 > 删除进入弹窗页面,系统会提示是否确认删除。
三、文件管理
1、选择存储空间 > 文件管理进入列表页面。
2、点击右上角上传文件进行文件的上传。
3、每个对象均支持查看明细、下载、设置读写权限、删除动作。
注:此处的设置读写权限仅针对单个对象,不影响整个存储空间的权限设置。
4、查看页面支持以连接的方式向外输出,且支持连接的有效期设置。
服务工具
服务工具支持客户端工具与Java SDK,用于外部管理或使用对象存储服务。
客户端工具
支持Windows客户端,通过下载程序安装在本地,配置本地路径与对象存储服务的存储空间完成数据的实时传输。
Java SDK
下载java SDK资源包,内部包含使用方法与案例,Java SDK是将已封装好的方法提供给第三方系统使用。
自定义表单
自定义表单用于创建一个个性化填报页面,发布到终端让用户填报数据。创建完成的表单只有发布之后才能被外部用户访问,表单的发布支持无认证方式与有认证方式两种。
使用教程
1、登录虎符平台
2、选择数据集成 > 自定义表单进入列表页面。
3、点击新建表单进入页面,由左侧的组件拖入画布中配置表单。
参数 | 描述 |
---|---|
单行文本 | key:字段名称(必填项) 标题:字段的中文描述 默认值:不填写时采用的默认数据 校验:校验方式支持必填、最少字数、最多字数 |
多行文本 | key:字段名称(必填项) 标题:字段的中文描述 默认值:不填写时采用的默认数据 校验:校验方式支持必填、最少字数、最多字数 |
数字输入框 | key:字段名称(必填项) 标题:字段的中文描述 默认值:不填写时采用的默认数据 校验:校验方式支持必填、最小值、最大值、最大的小数位数 |
下拉框选项 | key:字段名称(必填项) 标题:字段的中文描述 选项:通过加号选项,自定义设置选项内容 校验:校验方式有必填 |
单项选择框 | key:字段名称(必填项) 标题:字段的中文描述 选项:通过加号选项,自定义设置选项内容 校验:校验方式有必填 |
复选框 | key:字段名称(必填项) 标题:字段的中文描述 选项:通过加号选项,自定义设置选项内容 校验:校验方式有必填 |
日期 | key:字段名称(必填项) 标题:字段的中文描述 日期格式:格式支持YYYY-MM-DD、YYYY-MM 默认值:不填写时采用的默认数据 校验:校验方式支持必填、最大开始日期、最大结束日期 |
时间 | key:字段名称(必填项) 标题:字段的中文描述 默认值:默认值格式为hh:mm:ss 校验:校验方式有必填 |
4、1是表单名称,支持自定义修改;2是表名称,支持自定义修改,前缀为ods_。
数据开发
离线计算
作业开发
作业开发面向临时查询的需求,仅执行一段测试脚本SQL,同时此脚本可以被工作流程引用。
使用教程
1、登录虎符平台
2、选择数据开发 > 离线计算 > 作业开发进入开发页面。
3、在工作目录中右键单击,选择新建作业进入开发工作台。
工作流程
离线计算支持向导模式与脚本模式,向导模式以配置的方式完成数据清洗加工,屏蔽底层复杂的计算架构,以更加友好、便捷的方式完成数据开发;脚本模式以编写SQL的方式完成开发。
使用教程
一、创建工作流程
1、登录虎符平台
2、选择数据开发 > 离线计算 > 工作流程进入列表页面。
3、在工作目录中右键单击,选择新建工作流程 > 脚本模式进入开发工作台,从开发组件区域拖入相应的组件,并进行开发。
二、开始节点
画布创建初始,自带一个开始节点作为该工作流程的起始节点,主要用于整个工作流程的调度配置:包括生效日期、调度周期,设置任务依赖。
右侧导航栏可查看节点详情、调度依赖和任务的操作记录。
- 节点详情:查看该节点基本信息
- 调度配置:设置该工作流的调度周期,需要配置的参数如下:
参数 | 描述 |
---|---|
生效日期 | 选择任务生效日期 |
调度周期 | 包括分钟、小时、天、周、月 |
任务依赖 | 选择任务添加依赖 |
- 操作记录:记录节点更新情况
三、开发组件配置
开发组件支持数据集成、数据开发、数据质量三类。
使用教程:
1、双击工作流程目录下需要编辑的工作流
2、进入画布,拖动左侧组件栏,拖动组件到画布中,编辑组件的名称和描述信息,点击“保存”。
3、双击开发组件节点,进入该组件配置页面。
参数 | 描述 |
---|---|
离线同步 | 面向业务数据库层面的批量数据采集,详细配置参考离线同步 |
接口采集 | 面向业务系统的接口数据采集,详细配置参考接口采集 |
SQL组件 | 数据开发SQL组件 |
数据质量 | 数据质量组件,详细配置参考数据质量 |
四、连线属性
各个组件根据业务逻辑关系使用连线形成上下游关系,虎符提供3种连线关系,并以颜色区别:
(1)上一节点运行成功,则执行下一节点;
(2)上一节点运行失败,则执行下一节点;
(3)总是执行下一节点。
注:开始节点的连线“只有总是执行下一节点”这一条属性
资源管理
用户可以通过资源管理功能,将写好的自定义函数以jar文件形式上传至虎符平台,在离线任务运行时调用
使用教程
一、上传资源
1、登录虎符平台
2、选择数据开发 > 实时开发> 资源管理进入资源列表页面。
3、在工作目录中右键单击上传按钮,进入弹窗页面配置各项参数。
二、引用资源
函数中引用资源
如果现有的系统内置函数无法满足您的需求,离线计算支持创建自定义函数。将实现逻辑的资源Jar包上传至项目空间下,便可在创建自定义函数的时候进行引用资源。详细操作请参见函数管理。
三、删除资源
如果需要删除一个资源,在资源目录中右键单击该资源,选择删除即可。
注: 删除资源后,引用该资源的函数或代码在运行时会报错,故请慎重操作。
函数管理
用户可以通过函数管理功能,上传自定义Jar文件作为资源,发布自定义函数,并进行注册使用。同时以文件树形式对函数资源统一进行管理。
使用教程
前提:需要在资源目录中上传好所需资源jar包,具体操作看资源目录>上传资源文档
一、自定义函数
1、登录虎符平台
2、选择数据开发 >离线时开发 >函数管理进入资源列表页面。
3、在工作目录中点击新建函数按钮,进入弹窗页面配置各项参数。
4、填写完成后,提交后函数创建成功,之后即可在SQL代码中使用此函数。
参数 | 描述 |
---|---|
函数名称 | 在SQL脚本中使用的函数名称,名称需唯一,2-32个字符,支持英文字母、数字和下划线 |
类名 | 资源中需要运行的MainClass路径 |
资源 | 在资源管理中定义的资源名称 |
用途 | 函数的用途描述,128个字符以内,支持中文、英文字母、数字和下划线 |
命令格式 | 函数名称(参数类型1,参数类型2,...) |
父级目录 | 该函数所在的的父级目录 |
参数说明 | 该函数使用的参数说明,128个字符以内,支持中文、英文字母、数字和下划线 |
二、查看函数及引用
单击函数名,可以查看函数的类型、命令格式以及参数说明。可在离线开发任务中,通过代码编写引用函数。
三、删除函数
在函数目录页面找到需要删除的函数,右键单击,在菜单栏选择删除,即可删除该函数。
任务运维
在任务运维,可以查看离线任务的运行状态以及日志,支持重跑任务、终止运行等操作,也可以重要的任务设置关注等。
使用教程
1、登录虎符平台
2、选择运维中心 > 实时开发 进入运维列表页面,查看任务运行状态和基础信息。
3、可对您需要的任务,进行查看任务详情,查看日志、历史任务、关注、重跑/终止运行等操作
- 任务详情。查看该离线任务基本信息及运行情况。
- 查看日志。在操作栏点击“查看日志”,该离线数据同步任务的详情,点击同步来源数据表的名称,则自动定位至该数据表同步的日志信息,方便问题排查。
- 关注。在操作栏点击“关注”,可方便后期搜索栏检索关注任务
- 历史任务。查看该离线任务下的所有以往的历史调度信息,如任务详情和查看日志。
- 重跑/终止运行。可对离线任务进行重跑或者终止等操作。
4、设置监控。在列表中点击更多 > 设置监控,进入弹窗页面配置各项参数。
参数 | 描述 |
---|---|
监控主题 | 默认值,离线开发工作流程 |
实时开发任务 | 默认值,需要监控的离线开发任务名 |
报警原因 | 触发报警的条件 |
通知人 | 虎符注册的用户角色 |
通知方式 | 支持以邮件方式通知用户 |
实时计算
实时开发
实时开发支持向导模式与脚本模式(Flink、FlinkSQL)两种任务开发方式。在脚本模式中Flink类型的任务需要编写相应代码,打包上传至虎符后来进行调度运行,该类型可以以更加灵活的方式来开发各种更加复杂类型的指标,缺点则是上手难度高。FlinkSQL任务类型则以SQL脚本的方式来快速完成开发,使开发方式更加简单便捷。而在向导模式中则对脚本进一步封装,用户只需利用拖拉拽形式就可以完成指标的开发。
Flink类型
在使用Flink类型的开发模式时,用户需要确保已近上传了相关的jar文件(需包含Flink代码与相关依赖资源)至虎符,具体的上传方法参见资源管理
使用教程
一、创建工作目录及实时任务
1、登录虎符平台
2、选择数据开发 > 实时开发 进入实时开发界面。
3、在实时开发目录中点击新建工作目录,填写需要建立的目录名称
4、在工作目录中右键单击,选择新建任务 >脚本模式 >Flink进入弹窗页面配置各项参数。
参数 | 描述 |
---|---|
任务名称 | 2-32个字符,支持中文、英文字母、数字和下划线 |
任务类型 | 实时开发任务类型 |
资源 | 资源管理模块中上传的资源名称 |
mainClass | 资源中需要运行的MainClass路径 |
父级目录 | 父级目录名称 |
描述 | 128个字符以内,支持中文、英文字母、数字和下划线 |
二、查看任务详情
1、在工作目录中双击创建好的实时开发任务,进入开发任务页面
2、在开发任务页面可以对相关配置信息进行二次修改并保存。
3、点击锁定状态则无法进行修改操作,需进行解锁操作
4、在右侧列表点击查看任务详情,可以看到任务名称及创建修改时间
三、设置环境参数。
环境参数可以确定该Flink的运行的资源占用及分配情况,合适的参数可以时Flink任务运行更加高效。虎符中默认给定了一些常用参数的配置规则,用户也可以自定义配置其他参数
1、进入Flink实时开发任务页面
2、在右侧列表点击环境参数
3、以文本形式配置各项参数值(以#开头为注释行标识),配置完毕后将自动保存
参数 | 描述 |
---|---|
jobmanager.execution.failover-strategy | job失败恢复策略 |
jobmanager.memory.process.size | JobManager运行时总内存大小 |
taskmanager.memory.process.size | TaskManager运行时总内存大小 |
parallelism.default | 默认并行度 |
taskmanager.numberOfTaskSlots | 每个TaskManager的并行度 |
四、设置调度配置
设置调度配置可以指定运行该Flink任务的时间周期
1、进入Flink实时开发任务页面
2、在右侧列表点调度配置
3、填写生效区间。生效区间支持在日期范围内每天调度与周一至周五调度
4、填写日期范围。选择日期范围输入框,可以需要配置调度的时间范围。点击左下角“今天”,可以设置调度范围为今天开始后的所有天数。
5、填写时间范围。选择运行该Flink任务的时间范围
五、发布运行
前提:发布运行前请确认您已经上传了正确的jar文件至虎符的资源管理模块并确认上述配置信息正确无误
1、进入Flink实时开发任务页面
2、在右上角点击发布,提示发布成功
3、在右上角点击运维进入运维中心,查看刚才发布的任务状态及运行日志,详见任务运维
FlinkSQL类型
在使用FlinkSql类型的开发模式时,如果在脚本使用了自定义函数,需要您确保已近上传了相关的jar文件至虎符并注册了该函数,具体的方法参见资源管理及函数管理
使用教程
一、创建工作目录及实时任务
1、登录虎符平台
2、选择数据开发 > 实时开发进入列表页面。
3、在工作目录中右键单击,选择新建任务 >脚本模式 >FlinkSQL进入弹窗页面配置各项参数。
参数 | 描述 |
---|---|
任务名称 | 2-32个字符,支持中文、英文字母、数字和下划线 |
任务类型 | 实时开发任务类型 |
父级目录 | 父级目录名称 |
描述 | 128个字符以内,支持中文、英文字母、数字和下划线 |
二、配置源表,结果表,维度表
1、在工作目录中双击创建好的实时开发任务,进入开发任务页面
2、在开发页面的右侧列表中选择源表,进行相关配置,具体信息如下表
源表:将外部系统的表映射为FlinkSQL需要的源表结构。
注:在配置源表时请确保用户在数据资产 > 数据源管理已经配置好相关数据源。目前源表类型支持Kafka类型,可以在配置表单中数据预览中查看是否正确连接并获取到数据
参数 | 描述 |
---|---|
类型 | 源表类型目前只支持Kafka |
数据源 | 在数据资产 > 数据源管理中配置的数据源 |
Topic | 需要连接的Kafka主题 |
映射表 | 由Kafka中的topic映射而成的,可以在SQL中使用它。 |
字段 | 映射表的字段信息。只有当topic中的数据为json格式时,才可以自动映射成相应字段 |
Offset | latest:从Kafka Topic内最新的数据开始消费 earliest:从Kafka Topic内最老的数据开始消费 |
时间特征 | ProcTime:按照Flink的处理时间处理 EventTime:按照流式数据本身包含的业务时间戳处理 |
3、在开发页面的右侧列表中选择结果表,进行相关配置,具体信息如下表
结果表:将计算结果存放入外部系统的表
注:在配置源表时请确保用户在数据资产 > 数据源管理已经配置好相关数据源。目前结果表类型支持Kafka,Mysql,Hive,Hbase,可以在配置表单中的数据预览中查看是否正确连接并获取到数据
参数 | 描述 |
---|---|
类型 | 结果表类型目前支持Kafka,Mysql,Hive,Hbase |
数据源 | 在数据资产 > 数据源管理中配置的数据源 |
表 | 外部系统的表名 |
映射表 | Flink中的存放计算结果的表,可以在SQL中使用它。 |
字段 | 映射表的字段信息。 |
更新模式 | 追加:以仅追加的模式写入外部系统 更新:写入外部系统时可以更新结果,需要有主键 |
4、在开发页面的右侧列表中选择维度表,进行相关配置,具体信息如下表
维度表:FlinkSQL中需要用到的维度表
注:在配置源表时请确保用户在数据资产 > 数据源管理已经配置好相关数据源。目前结果表类型支持Kafka,Mysql,Hive,Hbase,可以在配置表单中的数据预览中查看是否正确连接并获取到数据
参数 | 描述 |
---|---|
类型 | 结果表类型目前支持Kafka,Mysql,Hive,Hbase |
数据源 | 在数据资产 > 数据源管理中配置的数据源 |
表 | 外部系统的表名 |
映射表 | Flink中的存放计算结果的表,可以在SQL中使用它。 |
字段 | 映射表的字段信息。 |
主键 | 映射表的主键信息 |
缓存策略 | 目前只支持LRU(最近最少使用策略) |
缓存大小 | 缓存大小,以行为单位 |
缓存超过时间 | 缓存超过时间,以毫秒为单位 |
三、编写SQL脚本
1、在工作目录中双击创建好的实时开发任务,进入开发任务页面
2、在右侧列表中的任务详情,可以看到该任务创建人及最近修改时间等信息
3、在空白页面中编辑SQL脚本
4、点击上方工具栏的代码检查,如果出现脚本中出现语法等错误将会有提示信息
5、点击保存(注:保存后可以在底部Tab页中可以查看历史版本的SQL脚本信息)
6、点击锁定状态则无法进行修改操作,需进行解锁操作
三、设置环境参数。
环境参数可以确定该Flink的运行的资源占用及分配情况,合适的参数可以时Flink任务运行更加高效。虎符中默认给定了一些常用参数的配置规则,用户也可以自定义配置其他参数
1、进入Flink实时开发任务页面
2、在右侧列表点击环境参数
3、以文本形式配置各项参数值(以#开头为注释行标识),配置完毕后将自动保存
参数 | 描述 |
---|---|
jobmanager.execution.failover-strategy | job失败恢复策略 |
jobmanager.memory.process.size | JobManager运行时总内存大小 |
taskmanager.memory.process.size | TaskManager运行时总内存大小 |
parallelism.default | 默认并行度 |
taskmanager.numberOfTaskSlots | 每个TaskManager的并行度 |
四、设置调度配置
设置调度配置可以指定运行该Flink任务的时间周期
1、进入Flink实时开发任务页面
2、在右侧列表点调度配置
3、填写生效区间。生效区间支持在日期范围内每天调度与周一至周五调度
4、填写日期范围。选择日期范围输入框,可以需要配置调度的时间范围。点击左下角“今天”,可以设置调度范围为今天开始后的所有天数。
5、填写时间范围。选择运行该Flink任务的时间范围
五、调试运行
代码调试用于校验业务逻辑或语法的正确性,由于时实时开发,在调试运行前需要提前上传好源表数据,目前虎符支持以csv文件上传与采集线上数据的方式进行上传。
1、进入Flink实时开发任务页面
2、在顶部菜单栏中选择调试
3、在左侧列表中选择需要上传数据的数据表
4、上传数据
- csv文件上传:选择下载模板,在下载好的csv文件中填报数据并上传至虎符(文件支持扩展名 .csv,条数应小于1000条且不超过1MB; 文件仅支持UTF-8格式;)
- 采集线上数据:采集kafka中的数据(该Kafka信息需要在源表中配置完成)
5、点击调试后可以在运行日志中查看调试的结果
注:
1、上传自定义数据、模拟作业运行、检查输出结果,最终验证业务逻辑的正确性,仅需上传源表数据,维表直接读取配置,无需上传 2、线上数据采集时长为30秒,若超过1分钟数据仍未采集至指定条数,则采集停止
六、发布运行
1、进入Flink实时开发任务页面
2、在右上角点击发布,提示发布成功
3、在右上角点击运维进入运维中心,查看刚才发布的任务状态及运行日志,详见任务运维
注:发布前请确认
- 确保任务名称唯一且合法
- 已经设置了正确的配置信息
- SQL脚本进行了代码检查这一环节
- 代码调试后日志无明显错误信息
资源管理
用户可以通过资源管理功能,将写好的自定义函数或是Flink代码以jar文件形式上传至虎符平台,在实时任务运行时调用
使用教程
一、上传资源
1、登录虎符平台
2、选择数据开发 > 实时开发> 资源管理进入资源列表页面。
3、在工作目录中右键单击上传按钮,进入弹窗页面配置各项参数。
二、引用资源
- 函数中引用资源
如果现有的系统内置函数无法满足您的需求,实时计算支持创建自定义函数。将实现逻辑的资源Jar包上传至项目空间下,便可在创建自定义函数的时候进行引用资源。详细操作请参见函数管理。
- 在Flink任务中引用资源
实时计算支持通过引用资源创建Flink任务,用户手动配置资源、mainclass、父级目录,可快速完成实时计算任务的创建。详细操作请参考任务管理中的新建Flink任务。
三、删除资源
如果需要删除一个资源,在资源目录中右键单击该资源,选择删除即可。
注: 删除资源后,引用该资源的函数或代码在运行时会报错,故请慎重操作。
函数管理
用户在上传了自定义函数的代码资源后,需要对函数进行注册才能进行使用。函数管理模块提供了可视化界面来帮助用户对函数统一的管理与注册。
前提:需要在资源目录中上传好所需资源jar包,具体操作看资源目录>上传资源文档
使用教程
一、自定义函数
1、登录虎符平台
2、选择数据开发 > 实时开发 >函数管理进入资源列表页面。
3、在工作目录中点击新建函数按钮,进入弹窗页面配置各项参数。
4、填写完成后,提交后函数创建成功,之后即可在SQL代码中使用此函数。
参数 | 描述 |
---|---|
函数名称 | 在SQL脚本中使用的函数名称,名称需唯一,2-32个字符,支持英文字母、数字和下划线 |
类名 | 资源中需要运行的MainClass路径 |
资源 | 在资源管理中定义的资源名称 |
用途 | 函数的用途描述,128个字符以内,支持中文、英文字母、数字和下划线 |
命令格式 | 函数名称(参数类型1,参数类型2,...) |
父级目录 | 该函数所在的的父级目录 |
参数说明 | 该函数使用的参数说明,128个字符以内,支持中文、英文字母、数字和下划线 |
二、查看函数及引用
单击函数名,可以查看函数的类型、命令格式以及参数说明。可在实时开发任务中,通过代码编写引用函数。
三、删除函数
在函数目录页面找到需要删除的函数,右键单击,在菜单栏选择删除,即可删除该函数。
任务运维
在任务运维,可以查看实时任务的运行状态以及日志,支持重跑任务、终止运行等操作,也可以重要的任务设置关注等。
使用教程
1、登录虎符平台
2、选择运维中心 > 实时开发 进入运维列表页面,查看任务运行状态和基础信息。
3、可对您需要的任务,进行查看任务详情,查看日志、关注、重跑/终止运行等操作
- 任务详情。查看该离线任务基本信息及运行情况。
- 查看日志。在操作栏点击“查看日志”,该离线数据同步任务的详情,点击同步来源数据表的名称,则自动定位至该数据表同步的日志信息,方便问题排查。
- 关注。在操作栏点击“关注”,可方便后期搜索栏检索关注任务
- 重跑/终止运行。可对离线任务进行重跑或者终止等操作。
4、设置监控。在列表中点击更多 > 设置监控,进入弹窗页面配置各项参数。
参数 | 描述 |
---|---|
监控主题 | 默认值,实时开发任务 |
实时开发任务 | 默认值,需要监控的实时开发任务名 |
报警原因 | 触发报警的条件 |
通知人 | 虎符注册的用户角色 |
通知方式 | 支持以邮件方式通知用户 |
指标管理
数据质量
数据质量能够监控数据在加工过程中存在的异常情况,以及产生的脏数据,系统支持自动拦截任务,并发生告警,有效阻断脏数据向下游蔓延,避免因数据问题影响业务决策。
概览
概览页展示数据质量的整体概况,总体分为5部分,监控总体统计、数据质量问题分布、数据质量趋势统计、数据质量问题表Top10、数据质量跨层访问情况。
参数 | 描述 |
---|---|
数据质量问题 | 统计平台未处理的所有质量问题总数 |
跨层访问数 | 数仓模型按照分层开发,统计所有跨层访问的总数 |
监控覆盖率 | 配置的监控任务占总数据模型的百分比 |
监控表/监控字段 | 统计监控的数据表总数,监控字段总数 |
数据表信息维护率 | 数据表与字段中文信息维护率 |
数据质量问题分布 | 数据质量按照天、周、月时间周期统计,包含完整性、准确性、一致性、及时性 |
数据质量趋势 | 数据质量趋势统计每天质量出现的次数 |
数据质量问题表Top10 | 从高到底排序数据表出现问题的总排行 |
数据质量跨层访问数 | 各层级之间跨层访问次数统计 |
监控规则
监控规则以数据表为出发进行质量规则配置。
使用教程
一:创建规则
1、登录虎符平台
2、选择数据质量 > 监控规则进入列表页面。
3、选择数据表点击配置监控规则进入规则页面。
4、单击创建规则进入弹窗配置各项参数。
模板规则:系统内置各类校验规则模板,用户可自主选择使用。
参数 | 描述 |
---|---|
规则名称 | 2-32个字符,支持中文、英文字母、数字和下划线 |
规则类型 | 规则类型分为表级规则、字段级规则 |
规则字段 | 规则字段支持多选 |
规则模板 | 规则模板支持20类 |
描述 | 128个字符以内,支持中文、英文字母、数字和下划线 |
规则模板
参数 | 描述 |
---|---|
完整性约束 | 指定字段唯一值的行数和设定的规则进行比较 |
空值约束 | 指定字段唯一值的行数与总行数的比率和设定的规则进行比较 |
空值占比约束 | 指定字段空值的行数和设定的规则进行比较 |
取值范围约束 | 指定字段空值的行数与总行数的比率和设定的规则进行比较 |
极大值约束 | 指定字段重复值的行数和设定的规则进行比较 |
极小值约束 | 指定字段重复值的行数与总行数的比率和设定的规则进行比较 |
平均值约束 | 指定字段的平均值和设定的规则进行比较 |
总值约束 | 指定字段的和值和设定的规则进行比较 |
长度约束 | 指定字段的最大值和设定的规则进行比较 |
代码长度约束 | 指定字段的最小值和设定的规则进行比较 |
正则表达式约束 | 身份证号码校验 |
正则表达式约束 | 电话号码校验 |
日期值约束 | 检查对象是否存在超出当前日期或指定日期的值 |
枚举值约束 | 检查对象的值是否满足枚举值内 |
空字符串约束 | 检查对象的值是否存在空字符串 |
空值或空字符串约束 | 检查对象是否存在空值或者空字符串二者之一 |
特殊字符约束 | 检查对象是否存在特殊字符 |
重复值约束 | 检查对象是否存在重复值 |
及时性约束 | 检查表数据是否存在延迟(天级别) |
代码长度约束 | 当代码长度固定时,检测代码是否有其他长度值 |
日期值约束 | 检查对象是否存在超出当前日期或指定日期的值 |
枚举值约束 | 检查对象的值是否满足枚举值内 |
空值占比约束 | 若空值占比波动较大,超过了某个既定值,则可能这个字段的记录出现了问题,信息出现缺失 |
自定义规则:通过配置方式完成数据质量规则校验,扩展性较强。
参数 | 描述 |
---|---|
规则名称 | 2-32个字符,支持中文、英文字母、数字和下划线 |
规则字段 | 规则字段支持多选 |
统计方式 | 统计方式支持:avg、count、max、min、sum、length |
比较方式 | 比较方式支持:大于、大于等于、等于、小于、小于等于、不等于、属于、不属于 |
期望值 | 期望值与比较方式配合使用,填写字段对比的目标阈值 |
描述 | 128个字符以内,支持中文、英文字母、数字和下划线 |
二:设置调度
设置调度面向当前数据表的所有规则
1、进入数据质量 > 监控规则 > 配置监控规则进入列表页面。
2、单击右上角设置调度配置各项参数。
参数 | 描述 |
---|---|
调度状态 | 默认不选中;选中冻结表示调度任务不运行。 |
生效日期 | 表示调度任务的运行时间区间 |
调度周期 | 支持分钟、小时、天、周、月 |
三、试跑
试跑为一次性任务,用于检验当前配置的模板是否符合预期,运行结束之后可在任务管理页面中查看结果。
1、进入数据质量 > 监控规则 > 配置监控规则进入列表页面。
2、单击右上角试跑即开始运行。
任务管理
任务管理为数据质量所运行的所有任务记录,任务筛选支持任务频率、任务状态、模糊搜索。
使用教程
一:任务详情
1、登录虎符平台
2、选择数据质量 > 任务管理进入列表页面。
3、选中某个数据表点击任务详情进入任务详情页面。
4、任务详情展示所有规则所运行的记录、状态以及告警数。
二:规则配置
1、登录虎符平台
2、选择数据质量 > 任务管理进入列表页面。
3、选中某个数据表点击规则配置进入监控规则页面重新配置。
三:任务结果
1、登录虎符平台
2、选择数据质量 > 任务管理进入列表页面。
3、选中某个数据表点击任务结果进入任务结果页面。
数据资产
数据地图
数据地图提供方便快捷的数据搜索服务
数据地图搜索结果分类包括:规范设计、数据集成、数据开发、指标管理、数据质量、数据服务。
全域数据
全域数据汇聚了平台内所有数据表,支持一站式查看数据详情、血缘、数据等信息。
数据服务
数据服务旨在为企业搭建统一的数据服务总线,帮助企业统一管理对内对外的API服务。数据服务提供快速将数据表生成数据API的能力,涵盖API发布、管理、运维全生命周期管理,帮助您简单、快速、低成本、低风险地实现微服务聚合、前后端分离、系统集成,向合作伙伴、开发者开放功能和数据。
概览
概览页分为全局概览和我的概览,数据开发工程师只能看到我的概览,管理员则能够看到所有。
全局概览统计了平台内API总数、已申请数、累计调用次数、失败次数、申请统计、调用次数趋势统计、调用用户数TOP、调用量TOP、失败次数TOP、错误类型分布统计信息。
我的概览统计了当前用户使用情况包括我的发布数、申请数、累计调用次数、失败次数、我的申请情况、调用次数趋势统计、调用量TOP、失败次数TOP、错误类型分布统计信息。
API市场
API市场是当前工作空间下用户发布的所有API接口,用户可在市场内选择符合需求的API进行申请使用。同时支持对市场内的API进行测试、导出API文档等操作。
API管理
API管理用于管理当前账号创建、注册API接口,以及申请使用API市场中的接口管理功能。包含我的API与我的申请功能。
我的API
使用教程
一:新建API
1、登录虎符平台
2、选择数据服务 > API管理进入列表页面。
3、单击右上角新建API进入弹窗选择创建API类型。
参数 | 描述 |
---|---|
生成API | 快速将关系型数据库和NoSQL数据库的表生成数据API接口 |
注册API | 将已有的API注册至数据服务,进行统一管理、发布和对接 |
指标API | 将已开发的指标注册至数据服务,帮助指标对外快速对外服务 |
生成API
1、向导模式
向导模式支持单张表的对外输出
参数 | 描述 |
---|---|
API名称 | 2-32个字符,支持中文、英文字母、数字和下划线 |
API Path | API接口路径,如:/getUserById |
API协议 | API协议支持复选:HTTP、HTTPS |
API分组 | 下拉框选择API分组目录 |
描述 | 128个字符以内,支持中文、英文字母、数字和下划线 |
数据源 | 下拉框选择已注册的数据源名称 |
数据表 | 下拉框选择数据源内的数据表 |
参数选择 | 参数选择为数据表中的字段,均可设置为请求参数或返回参数 |
请求参数设置 | 请求参数支持自定义命名,且支持多种运算操作符 |
返回参数设置 | 返回参数支持自定义命名,且支持对返回的数据类型设置 |
2、脚本模式
脚本模式以编写SQL的方式对外输出,支持多表联合查询。
参数 | 描述 |
---|---|
API名称 | 2-32个字符,支持中文、英文字母、数字和下划线 |
API Path | API接口路径,如:/getUserById |
API协议 | API协议支持复选:HTTP、HTTPS |
API分组 | 下拉框选择API分组目录 |
描述 | 128个字符以内,支持中文、英文字母、数字和下划线 |
数据源 | 下拉框选择已注册的数据源名称 |
数据表 | 下拉框选择数据源内的数据表 |
查询SQL | SQL可自定义编写,仅支持select |
请求参数设置 | 请求参数支持自定义命名,且支持多种运算操作符 |
返回参数设置 | 返回参数支持自定义命名,且支持对返回的数据类型设置 |
注册API
注册API是将已有的API注册至数据服务。
参数 | 描述 |
---|---|
API名称 | 2-32个字符,支持中文、英文字母、数字和下划线 |
API Path | API接口路径,如:/getUserById |
API协议 | API协议支持复选:HTTP、HTTPS |
API分组 | 下拉框选择API分组目录 |
描述 | 128个字符以内,支持中文、英文字母、数字和下划线 |
协议 | 下拉框选择HTTP、HTTPS |
URL | 接口访问路径 |
超时时间 | 设置后端超时时间 |
请求方式 | 请求方式选择GET、POST、PUT、DELETE |
Headers | |
请求参数 | 请求参与依据Headers选择进行按需配置 |
指标API
指标API是将已开发的指标注册至数据服务,帮助指标对外快速对外服务。
我的申请
我的申请是在api市场中申请使用的记录,可对已申请的记录进行管理。记录共分为5类状态。
参数 | 描述 |
---|---|
已授权 | 查看已授权的API接口详情以及调用次数 |
待审批 | 待审批状态用户可进行撤回操作 |
已撤回 | 已撤回用于展示撤回操作的记录,用户可进行再次申请 |
已取消 | 已取消是管理员对已经审批通过的API接口,进行了取消授权操作,用户可进行再次申请 |
未通过 | 未通过是管理员驳回了申请,用户可进行再次申请 |
API调用
API调用支持简单认证调用方式,每个用户都有一个专属apiToken,用于调用API接口,同时系统也会记录该apiToken调用接口的明细信息。
授权审批
授权审批只有管理员可访问,用于对申请API的请求进行审批管理,API接口申请状态有5类。
参数 | 描述 |
---|---|
待审批 | 管理员可之间进入审批管理,选择是否通过 |
已授权 | 已授权的API接口管理员可进行取消授权操作 |
已取消 | 已取消是管理员审批通过之后,又进行了取消授权操作 |
未通过 | 未通过是管理员驳回了申请,用户可进行再次申请 |
已撤回 | 已撤回状态是用户申请之后又进行了撤回操作,管理员可查看详情 |
安全管理
安全管理只有管理员可访问,用于对已授权的API进行安全策略管理,管理员可查看API已授权的用户数与累计调用总数。通过点击编辑授权对授权的用户进行授权管理。