Azure Data Factory操作使用介绍
在大数据环境中,原始、散乱的数据通常存储在关系、非关系和其他存储系统中。 但是,就其本身而言,原始数据没有适当的上下文或含义来为分析师、数据科学家或业务决策人提供有意义的见解。
大数据需要可以启用协调和操作过程以将这些巨大的原始数据存储优化为可操作的业务见解的服务。 Azure Data Factory是为这些复杂的混合提取-转换-加载 (ETL)、提取-加载-转换 (ELT) 和数据集成项目而构建的托管云服务。
Azure Data Factory功能是非常强大的,对于结构化数据、半结构化和非结构数据都能支持ETL,而且它支持多元化的操作,Azure Data Factory可以用Azure门户创造云资源进行操作,也可以支持IT人员进行代码操作,提供REST API进行创建Azure Data Factory。下面我来介绍一下用Azure门户创建操作Azure Data Factory。
-
1、首先进入Azure账号门户,选择创建资源
-
2、选择分析->Data Factory
-
3、输入数据工厂的名称,选择V2版本,选择订阅和资源组,最后选择位置。可以不选择GIT服务。点击创建等待部署几分钟就创建好了一个数据工厂的服务。
-
4、进入数据工厂的界面可以选择看官方文档,里面一些操作介绍的很全面。这里我就不一一介绍了,我们开始正式介绍怎么使用数据工厂吧!点击创建者和监视器进入操作界面。
然后我们就进入到了操作界面
简单介绍一下图片上面的6种操作
(1): 创建管道:
管道的含义简单理解就是在数据管道内做一系列操作再输出数据接收源。管道内的操作非常丰富,比如有数据的移动和转换、Azure Functions、数据湖分析、大数据分析操作、机器学习等。下图就是管道的活动项目:
(2): 创建数据流:
数据流的定义就是有输入流和输出流中间可以做一些转换操作,比如join、filter、sort等操作,创建数据流就是建立一个数据流的作业。
图中红边框标注起来的就是一个数据流作业,输入源source1就是输入流,后面接着跟着join操作,对接着输出流输出到sink1
(3): 从模板中创建管道
数据工厂提供一些模板类型去创建管道作业,可以选择你需要的类型。
(4): 复制数据:
Copy data 可以选择数据从一端复制到另一端,输入源要是云上数据,但支持100多种数据源类型,常见的数据源类型都支持。输出源只支持云上的7种类型,如下图
介绍一下复制数据的操作
- 1、定义任务名称、选择任务执行计划
- 2、选择输入源,选择数据文件,按要求选择配置
- 3、选择输出源,同上一步操作
- 4、设定一些配置
- 5、查看摘要、可以进行编辑
- 6、确认部署、完成部署
在左边栏中选择铅笔的标志,查看管道,可以看到自己建立的管道,可以进行验证和debug(除错)
(5): 配置SSIS集成:
这个SSIS(Microsoft SQL Server Integration Services)SQL Server集成服务,是微软推广的一种产品服务,是需要额外收费的,所以这里我就不过多介绍。
(6): 设置代码库:
设置代码库主要作用是用来管理代码的,它还是需要关联你的Azure DevOps Git或则GitHub账号
介绍完了这些基本功能,最后的就是左边栏的最后一个监控功能了。
监控功能主要是监控管道。
1、仪表盘
仪表盘主要是监控管道的运行状态
2、管道运行
管道运行是你以发布的管道进行手动触发管道运行
3、触发运行
需自定义触发器才能看到触发运行的管道
4、集成运行
需自己先定义资源管理器进行资源管理的监控
5、警告和指标
添加警报规则
按照要求完成条件,可以添加短信/邮箱/推送/语音通知。进行对管道的监控报警。
以上就是对Azure Data Factory使用操作的简单介绍了,其实Azure Data Factory功能还是很强大的,有许多操作还是需要自己去尝试摸索,如果需要云上资源和解决方案还是可以联系我们。