DevOps - DevLake

xiaoyu_359

已于 2024-09-23 20:02:20 修改

阅读量681

点赞数 12

分类专栏：信息安全技术文章标签： devops 运维 apache go1.19 golang

于 2024-09-23 16:28:37 首次发布

本文链接：https://blog.csdn.net/xiaoyu_359/article/details/142377853

版权

信息安全技术专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1. 工具数据(数据库以_tool_开头的数据)

一、DevLake简介

1、什么是DevLake

DevLake全名是Apache DevLake，是一个开源的开发数据平台，它从DevOps工具中采集、提取和转化数据，并将碎片化的DevOps数据整理，最终形成可以直观查看的指标数据。这些指标数据可以反映工程师表现、可以反应项目的整个发展情况，也可以反应出开发社区的健康度和活跃度。DevLake的目的是为了更好地理解开发过程，并将更多的数据驱动方法引入实践中。

2、DevLake可以用来做什么

统一数据集成：使用标准数据模型将来自软件开发生命周期(SDLC)的DevOps数据整合在一起。
开箱即用的见解：通过直观的、用例驱动的仪表板访问关键的工程指标。
可定制：扩展DevLake以符合您的独特需求，根据需要添加数据源、指标和仪表板。
行业标准实现：使用DevLake应用公认的DORA指标来优化DevOps性能。
创建繁荣的文化：DevLake专注于健康的实践，帮助团队采用和建立实用的数据驱动文化。

3. 如何使用DevLake

3.1. 配置数据源

你可以开始使用受支持的数据源配置DevLake，如GitHub、GitLab、Jira、Jenkins、BitBucket、Azure DevOps、SonarQube、PagerDuty、TAPD、ZenTao、Teambition，然而，如果你的CI/CD工具目前不被DevLake支持，你可以利用webhooks功能。当你的DevOps工具没有特定插件可用时，Webhooks功能允许你主动将数据推送到DevLake。

3.2. 创建项目

一旦您将数据源连接到Apache DevLake，您就可以创建一个“项目”，以确保您已经为执行做好了一切准备。在DevLake建立一个项目的过程通常包括四个步骤:

1）添加数据源

2）设置数据收集范围

3）设置数据转化规则（可选）

4）设置同步策略

3.3 检查仪表板和指标

在DevLake中配置项目后，您可以在Grafana中访问预构建的仪表板。这些仪表板提供了与软件开发相关的各种度量的可视化和洞察。

要根据您的特定目标和需求定制仪表板，您可以使用Grafana的功能来调整它们。此外，如果您喜欢创建自己的仪表板，您可以选择使用SQL查询从DevLake获取必要的数据，参考度量文档中的域层数据模式和SQL示例。

二、DevLake的框架

1. DevLake组成

Config UI：人如其名，配置的可视化，其主要承载 Apache DevLake 的配置工作。通过 Config UI，用户可以建立数据源连接，并实现数据的收集范围，部分数据的转换规则，以及收集频率等任务。
API Server：Apache DevLake 的 Api 接口，是前端调用后端数据的通道。
Runner：Apache DevLake 运行的底层支撑机制。。
Database：数据库存储DevLake的元数据和通过数据管道收集的用户数据。DevLake从v0.11开始支持MySQL和PostgreSQL。
Plugins：插件使DevLake能够通过可访问的API从任何DevOps工具收集和分析开发数据。DevLake社区正在积极为流行的DevOps工具添加插件，但如果您首选的工具尚未覆盖，请随时打开GitHub issue让我们知道或查看我们的文档，以了解如何自己构建新插件。
Dashboard：仪表板向DevLake用户提供数据和见解。仪表板只是一组SQL查询以及相应的可视化配置。DevLake的官方仪表盘工具是Grafana，预构建的仪表盘以Grafana的JSON格式提供。

2. 数据流图

DevLake是通过分层的方式从数据源提取数据的，总共分为3层

1）Raw Layer（原始层）

原始层以JSON格式存储来自数据源(DevOps工具)的API响应。后面会对原始数据进行不同的转换，这可以节省开发人员的时间。请注意，与数据源的api通信通常是最耗时的步骤。

2）Tool Layer（工具层）

工具层将原始数据从json中提取到关系模式中，以便于分析任务使用。每个DevOps工具都有一个针对其数据结构定制的模式，因此被称为tool layer（工具层）。

3）Domain Layer（领域层）

领域层试图在工具层之上构建一个抽象层，以便分析逻辑可以在不同的工具之间重用。例如，GitHub的Pull Request (PR)和GitLab的Merge Request (MR)是类似的实体。它们在工具层中都有自己的表名和模式，但是在领域层中它们被合并为单个实体，因此开发人员只需要针对领域层模式实现一次周期时间和代码评审轮等指标。

3. 核心概念

3.1 Blueprint

蓝图是将数据源中的数据同步到DevLake平台的计划。创建蓝图包括四个步骤：

添加数据连接（Data Connection）：您可以向蓝图添加一个或多个数据连接，具体取决于您希望与DevLake同步的数据源。每个数据连接代表一个特定的数据源，如GitHub或Jira。
设置数据范围（Data Scope）：添加数据连接时，可以选择收集数据连接的全部或部分配置的数据范围。
数据范围配置（Scope Config）：数据范围配置定义了要收集的特定数据实体和要应用于该数据的转换。
设置同步策略（Sync Policy）：设置数据采集的同步频率和时间范围。

在创建DevLake项目时，将自动创建Blueprint。
每个Blueprint可以有多个数据连接。
每个数据连接可以有多个数据范围。
每组数据范围仅由一个GitHub/GitLab项目或Jira看板以及它们相应的数据实体组成。
每组数据范围只能有一个数据范围配置。

3.2 Pipelines

管道是DevLake API中定义的数据收集、提取、转换和扩展任务的编排。流水线由一个或多个按顺序执行的阶段组成。在执行任何阶段、任务或子任务时发生的任何错误都会导致管道立即失败。

下面看一下管道的组成：

Stage：Stage是由数据插件执行的任务的集合。在管道中，Stage是按顺序执行的。

Task：任务是执行特定数据插件的任何收集、提取、转换和充实任务的子任务的集合。任务在任何阶段都以并行顺序执行。

Subtask：子任务是管道中执行四个角色中的任何一个的最小工作单元:Collectors（收集）, Extractors（提取）, Converters（转换） and Enrichers（扩展），子任务按顺序执行。

Collectors：通常通过DevLake API从数据源收集原始数据并存储到原始数据表中
Extractors：从原始数据表中提取数据到工具层表
Converters：将数据从工具层表转换为领域层表
Enrichers：将数据从一个域扩展到其他域。例如，可以傅里叶变换issue_changelog，以显示问题在每个受聘者上的时间分布。