自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 DataPipeline如何实现数据质量管理?

数据质量管理已经成为数据治理的重要组成部分。高质量的数据是企业进行决策的重要依据。DataPipeline数据质量平台整合了数据质量分析、质量校验、质量监控等多方面特性, 以保证数据质量的完整性、一致性、准确性及唯一性。帮助企业解决在数据集成过程中遇到的数据质量相关问题。DataPipeline数据质量管理DataPipeline Quality流式数据质量检查,提供了基础清洗规则配置和高...

2019-06-14 15:07:18 400

原创 元数据管理的核心功能及使用?

1、什么是元数据管理?企业用户在创建了众多数据库信息时,需要一个查询功能可以及时高效地为用户查询数据库信息,如数据源、表以及视图等信息。DataPipeline元数据管理功能可以为用户降低时间成本,提高查询效率。2、元数据管理能做到什么?元数据管理能带给用户的核心功能有:1、支持筛选查询已创建的数据源/表/视图信息。2、支持查看总览查询所有已创建的数据库信息。3、支持用户输入数据源名称...

2019-06-14 14:58:35 3239

转载 任务流作用及功能?

1.什么是「任务流」?企业用户需要把多个任务串联在一起,实现各个任务之间的依赖关系,当上游任务完成同步时可自动开启下游任务,实现数据同步的批流一体化。目前支持的组件任务有数据任务、远程命令执行、延时器等。2.为什么需要管理「任务流」?企业数据部门需要同时兼顾多方数据需求,需要一个平台可视化监控全部的任务流,并及时处理异常情况。DataPipeline希望能够最大限度的帮助企业数据部门降低数据...

2019-06-11 16:23:54 2232

转载 有一种机遇叫5G速度,有一种痛叫5G数据

原创: DataPipeline DataPipeline数见科技近期,工业和信息化部将发放5G商用牌照,我国将正式进入5G商用元年,这意味着中国5G商用提前了一年。随着5G建设即将全面在国内展开,大部分人还没有对5G有直观的概念。5G与4G相比,差异在哪?对我们的生活有什么影响?美国著名脱口秀主持人特雷弗·诺亚(Trevor Noah)在其节目上做了形象地介绍:5G的闪电技术将会加速...

2019-06-06 14:27:26 242

转载 构建实时数据集成平台时,在技术选型上的考量点

构建实时数据集成平台时,在技术选型上的考量点陈肃 DataPipeline数见科技 昨天文 | 陈肃 DataPipeline CTO交流微信 | datapipeline2018随着企业应用复杂性的上升和微服务架构的流行,数据正变得越来越以应用为中心。服务之间仅在必要时以接口或者消息队列方式进行数据交互,从而避免了构建单一数据库集群来支撑不断增长的业务需要。以应用为中心的数据持...

2019-06-04 17:07:10 507

原创 DataPipeline如何实现数据质量管理?

数据质量管理已经成为数据治理的重要组成部分。高质量的数据是企业进行决策的重要依据。DataPipeline数据质量平台整合了数据质量分析、质量校验、质量监控等多方面特性, 以保证数据质量的完整性、一致性、准确性及唯一性。帮助企业解决在数据集成过程中遇到的数据质量相关问题。DataPipeline数据质量管理DataPipeline Quality流式数据质量检查,提供了基础清洗规则配置和高...

2019-05-31 16:29:56 893

原创 数据质量模块及核心功能?

数据质量模块1.什么是「数据质量模块」?「数据质量模块」是DataPipeline提供的一个新的模块,主要是针对「数据质量任务」相关的功能。目前提供「数据质量任务」、「数据度量规则」、「数据检核方法」等三个功能模块。2. 「数据质量模块」的核心功能模块?主要分以下几个模块,请点击下方链接查看具体的模块详情介绍:数据质量任务数据度量规则数据检核方法DataPipeline...

2019-05-29 14:31:40 1395

原创 如何使用元数据管理?

如何使用元数据管理?元数据管理首页顶部显示搜索入口提示文案:请输入搜索关键词(如数据源、表、视图、字段、标签名称)搜索范围:数据源搜索范围:数据源名称、数据源类型、创建人、负责人、标签表搜索范围:表名称、负责人、Comment、标签视图搜索范围:视图名称、负责人、Comment、标签字段搜索范围:字段名称、标签、别名、描述筛选功能数据源展示【全部】及各个数据源按钮,默认是选择...

2019-05-29 14:09:23 2166 1

原创 ETL与ELT的区别与联系?

ETL与ELT的区别与联系其实数据集成不算一个很新的概念,可能20年前就有数据集成的工具,大家经常会使用Talent, Informatica, Kettle, Data Stage这样一些工具。这些工具有一个共性,就是它的数据计算和转化功能是非常强大的。而ELT从功能上来说没有差异,只是换了一个顺序。差别于,如果采用ELT的方案,首先把数据用一种高效的方式从数据源抽取出来,进行一些清洗和异常...

2019-05-27 18:21:29 3779

原创 DataPipeline基于Kafka Connect做了哪些提升?

在不断满足当前企业客户数据集成需求的同时,DataPipeline也基于Kafka Connect 框架做了很多非常重要的提升。系统架构层面。DataPipeline引入DataPipeline Manager的概念,主要用于优化Source和Sink的全局化生命周期管理。当任务出现异常时,可以实现对目的端和全局生命周期的管理。例如,处理源端到目的端读取速率不匹配以及暂停等状态的协同。为...

2019-05-23 17:28:36 232

原创 DataPipeline与Datax有什么区别?

监控预警:DataPipeline有可视化的过程监控,提供多样化的图表,辅助运维,故障问题可实时预警。Datax:依赖工具日志定位故障问题数据实时性:DataPipeline:实时Datax:定时实施与售后服务:DataPipeline:原厂实施和售后服务Datax:阿里开源代码,需客户自动实施、开发、维护数据清洗:DataPipeline:围绕数据质量做轻量清洗Datax:...

2019-05-22 13:20:09 8915

原创 打造实时数据集成平台——DataPipeline基于Kafka Connect的应用实践

导读:传统ETL方案让企业难以承受数据集成之重,基于Kafka Connect构建的新型实时数据集成平台被寄予厚望。在4月21日的Kafka Beijing Meetup第四场活动上,DataPipeline CTO陈肃分享了DataPipeline是如何基于Kafka Connect框架构建实时数据集成平台的应用实践。以下内容是基于现场录音整理的文字,供大家参考。什么是数据集成?最简单的应用...

2019-05-21 13:01:52 555

原创 DataPipeline在大数据平台的数据流实践

进入大数据时代,实时作业有着越来越重要的地位。本文将从以下几个部分进行讲解DataPipeline在大数据平台的实时数据流实践。一、企业级数据面临的主要问题和挑战1.数据量不断攀升随着互联网+的蓬勃发展和用户规模的急剧扩张,企业数据量也在飞速增长,数据的量以GB为单位,逐渐的开始以TB/GB/PB/EB,甚至ZB/YB等。同时大数据也在不断深入到金融、零售、制造等行业,发挥着越来越大的作用。...

2019-05-20 23:40:37 479

原创 如何统一管理单个任务下所有API的同步情况?

如何统一管理单个任务下所有API的同步情况1.一分钟完成单个API配置单个API的配置包含:API名称、URL地址、请求方式、参数设置、自定义高级设置。参数允许用户填写:Text、WebService、Timestamp、DependOn。若用户的value是一个数值或者静态数组则选择Text即可,若某一个key的value是动态的,可选择Web Service...

2019-05-16 23:03:42 1161

原创 DataPipeline的增量数据支持回滚功能

DataPipeline的增量数据支持回滚功能第一步:数据任务有增量数据时,回滚按钮激活,允许用户使用该功能进行数据回滚。第二步:点击回滚按钮,允许用户选择回滚时间或者回滚位置进行数据回滚。选择按时间回滚,用户可以选择一个具体回滚日期,系统将按照系统具体打点位置进行回滚;当用户知道具体要回滚的位置时,可以直接输入要回滚的文件位置进行回滚。第三步:点击保存,系统将会按照用户设置的回滚点进行数据...

2019-05-15 13:50:27 332

原创 为什么ELT更适合于企业数据应用?

为什么ELT更适合于企业数据应用DataPipeline陈肃为什么现在企业环境中,一个ELT的方案会比ETL的方案更有优势,实际上是由企业数据应用特点决定的。首先在一个企业数据应用里面我们对数据转换的灵活性要求越来越高,传统来说如果是BI应用可能相对来说是比较容易抽象的。但是现在大量企业在开发各种各样AI应用,AI应用有一个非常大的特点,它对于特征的抽取转化的过程是根据算法决定的,其实没有一...

2019-05-14 13:20:57 303

原创 在数据同步时,如何保证数据一致性?

在数据集成中经常被提及的一个需求是Exactly Once Semantic,要求在端到端的数据同步中一条记录同步到目的端,在任何情况下都不产生丢失和重复。而DataPipeline平台采用的Kafka Connect框架是如何保证数据一致性的?DataPipeline数据一致性示例DataPipeline平台对于数据一致性的保证是通过Kafka Connect中内嵌的Offset管理机制,...

2019-05-09 17:12:50 8298

原创 DataPipeline如何实现数据质量管理

数据质量管理已经成为数据治理的重要组成部分。高质量的数据是企业进行决策的重要依据。DataPipeline数据质量平台整合了数据质量分析、质量校验、质量监控等多方面特性, 以保证数据质量的完整性、一致性、准确性及唯一性。帮助企业解决在数据集成过程中遇到的数据质量相关问题。DataPipeline数据质量管理DataPipeline Quality流式数据质量检查,提供了基础清洗规则配置和高...

2019-05-07 11:48:56 1219

原创 数据交换平台

1.什么是数据交换平台数据交换平台就是把不同来源、不同特性的数据在逻辑上和物理上有机地集中,从而为企业应用系统提供全面的数据共享。通过数据交换平台解决企业数据一致性和数据可靠传输问题,打破企业信息孤岛,建立企业数据中心,最终实现数据的共享发布应用。数据交换平台的作用(1)打通信息孤岛,形成全景数据视图通过数据集成实现信息互联,为数据分析应用提供完整数据。(2)形成统一数据标准,实现多样...

2019-05-06 11:36:02 13979 2

原创 元数据管理

元数据管理1、什么是元数据管理?企业用户在创建了众多数据库信息时,需要一个查询功能可以及时高效地为用户查询数据库信息,如数据源、表以及视图等信息。DataPipeline(www.datapipeline.com)元数据管理功能可以为用户降低时间成本,提高查询效率。2、元数据管理能做到什么?元数据管理能带给用户的核心功能有:1、支持筛选查询已创建的数据源/表/视图信息。2、支持查看总览...

2019-05-06 09:56:32 2879

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除