数据转换过程可以分为六个步骤:提取extraction和加载loading、探索exploration、转换transformation、测试testing、文档documentation和部署deployment。
数据转换是获取原始数据并从中获取意义的过程;它构成了所有分析工作的基础,并代表了数据从业者如何从他们的公司创造有形的价值。
数据转换过程通常可以分解为六个常规定义的步骤:提取和加载、探索、转换、测试、文档和部署。执行这些步骤后,原始数据将采用一种有意义的新形式,为公司的商业智能工作提供支持。
我们将使用此页面来描述典型 ELT 工作流的数据转换过程。
步骤 1:提取和加载
如果您的团队遵循 ELT 工作流,其中在转换数据之前提取原始数据源并将其加载到数据仓库中,则需要在开始转换工作之前实际完成这些提取和加载步骤!
提取
在提取过程中,从与您的业务相关的多个数据源中提取数据。提取的数据大部分是团队最终希望用于分析工作的数据。数据源的一些示例可以包括:后端应用程序数据库、营销平台、电子邮件和销售 CRM 等。
这些数据通常是通过自定义脚本与应用程序编程接口(API)交互,或者依靠使用开源或软件即服务(SaaS)ETL工具来消除一些技术提升,从而从其系统中提取的。
加载
在加载阶段,提取的数据将加载到目标数据仓库中。现代数据仓库的一些示例包括Snowflake,Amazon Redshift和Google BigQuery。其他数据存储平台的例子包括数据湖,如Databricks的数据湖。大多数从数据源中提