数据治理的逻辑梳理

  1. 含义:对数据集的数据进行一定规则的分析,查看不符合规则的坏数据的状态及概率,用不同的形式展现出来
  2. 分析规则
    1. 内置规则:13种内置规则,,,,字段符合移动电话格式等
    2. 自定义规则:手动创建有三种自定义类型:el , Extend, sql
    3. 新建/编辑规则:(自定义数据)
      1. EL:
        1. 表达式就是正则表达式,
        2. 输入字段类型: 可以指定字符串,数字日期,不限定
      2. Extend:
        1. 表达式就是正则表达式,
        2. 输入字段类型: 可以指定字符串,数字日期,不限定 
        3. 基类:选一个已经存在的规则,指定从哪个规则基础上扩展
      3. SQL:
        1. 输入字段类型: 可以指定字符串,数字日期,不限定 
    4. 修改:
      1. 新建以弹框形式
      2. 新建form,主键字段不显示,描述放在name下面
      3. 左侧树结构去掉,分成是否筛选框,和自定义类型筛选框(EL,UDF,Extend,SQL )
  3. 分析模板
    1. 预处理流程:
      1. 可以在dataset运行前进行一次数据预处理,
      2. 预处理流程只能是dataflow,
      3. sink指定的dataset必须和模板选定的dataset是同一个才会生效
    2. 编辑规则
      1. name和数据集都填写完成之后才能点击编辑规则按钮,编辑规则之前,先调用保存接口
      2. 跳转到指定模板的规则管理页面,查看跳转到模板详情页面,运行中改成运行
      3. 运行和执行计划和flow的差不多
    3. 任务:
      1. 根据指定的模板跳转到对应的任务执行信息页面
    4. 修改
      1. 流程类型:指的是预处理流程的类型,可以放到flow选择弹框添加筛选调教,不在模板新建页面指定此西段
      2. 新建模板,form预处理流程字段只展示name,不需要主键
  4. 任务执行信息
    1. 模板名称:显示新建模板弹框,form字段disabled
    2. name: 任务执行详情弹框的form
    3. 结果: 执行后分析列表,跳转到新窗口显示table的页面
    4. 主键: 改成查看日志的操作按钮, 跳转到flow的日志路由
  5. 评估结果统计
    1. 数据列表
      1. 根据统计方式和统计项还有时间进行数据筛选
    2. 图形
      1. 质量等级和坏数据率两个数据进行平衡军属最大值最小值等展示
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值