Airflow量化入门系列：第二章 DAG设计与任务流控制

本文链接：https://blog.csdn.net/weixin_47339916/article/details/146940366

Airflow量化入门系列：第二章 DAG设计与任务流控制

本教程系统性地讲解了 Apache Airflow 在 A 股量化交易中的应用，覆盖从基础安装到高级功能的完整知识体系。通过八章内容，读者将掌握 Airflow 的核心概念、任务调度、数据处理、技术指标计算、策略回测及工作流监控、Docker/Kubernetes集成及生产环境优化等关键技能。教程整合 Tushare 数据源、TA-Lib 技术指标库和 VectorBT 策略回测工具，提供丰富实战案例，帮助构建高效、可靠的工作流，助力量化交易实践。
文中内容仅限技术学习与代码实践参考，市场存在不确定性，技术分析需谨慎验证，不构成任何投资建议。适合量化新手建立系统认知，为策略开发打下基础。

AirFlow

学习对象

中高级水平的开发者
具备 Python 编程基础，熟悉基本的 ETL 流程和数据分析工具
希望掌握 Airflow 在量化交易场景中的应用

教程目标

系统掌握 Apache Airflow 的核心功能与高级特性
深入理解 Airflow 在 A 股量化交易工作流中的应用
能够独立设计、部署和维护复杂的量化交易工作流

教程目录

第一章 Airflow基础与量化交易场景

1.1 Airflow 2.10+核心概念与架构
1.2 量化交易中的任务调度需求
1.3 Airflow环境搭建
1.4 DAG设计原则与任务依赖关系
1.5 示例：Tushare数据定时抓取与存储（Parquet格式）

第二章 DAG设计与任务流控制

2.1 DAG生命周期与状态管理
2.2 Operator类型详解（PythonOperator、BashOperator、TaskFlow API）
2.3 任务依赖关系与XCom通信机制
2.4 示例：A股数据预处理流水线（缺失值处理、特征工程）
2.5 错误处理与重试机制

第三章定时调度与告警集成飞书

3.1 Cron表达式与调度策略
3.2 Airflow Scheduler工作原理
3.3 Airflow Web UI监控与日志分析
3.4 示例：A股日线数据定时更新与异常检测
3.5 告警机制与飞书集成

第四章 A股数据处理与存储优化

4.1 Parquet文件格式优化（分区、压缩）
4.2 Airflow与Tushare API交互最佳实践
4.3 数据管道性能优化（并行任务与资源管理）
4.4 示例：A股基本面数据ETL流程
4.5 数据版本控制与回滚策略

第五章技术指标计算与特征工程

5.1 TA-Lib集成与自定义指标开发
5.2 并行计算与任务拆分策略
5.3 特征工程流水线设计（滞后特征、滚动窗口）
5.4 数据校验与一致性检查
5.5 示例：A股技术指标流水线（MACD、RSI、布林带）

第六章 VectorBT策略开发与回测

6.1 VectorBT集成与回测流程
6.2 策略参数优化与网格搜索
6.3 回测结果与性能评估
6.4 策略版本管理与持续迭代
6.5 示例：基于动量策略的A股回测

第七章机器学习模型训练与部署

7.1 Airflow与Scikit-learn集成
7.2 模型训练流水线设计（数据分片、交叉验证）
7.3 模型评估与超参数调优
7.4 模型部署与在线预测
7.5 示例：A股收益率预测模型训练

第八章高级特性与生产环境优化

8.1 动态任务生成与SubDAG
8.2 Airflow与Kubernetes集成
8.3 安全性与权限管理
8.4 生产环境部署与监控
9.5 性能优化与扩展性设计

第二章 DAG设计与任务流控制

2.1 DAG生命周期与状态管理

DAG（Directed Acyclic Graph）是Airflow的核心概念，用于定义任务的依赖关系和执行顺序。以下是DAG的生命周期与状态管理的关键点：

DAG定义
- 在Python文件中定义DAG，文件通常存放在dags目录。
- DAG由任务（Task）组成，任务之间通过依赖关系连接。
DAG状态
- 未运行（Not Started）：DAG尚未触发。
- 成功（Success）：所有任务成功完成。
- 失败（Failed）：至少一个任务失败。
- 运行中（Running）：DAG正在执行。
任务状态
- 未运行（Not Started）：任务尚未触发。
- 成功（Success）：任务执行成功。
- 失败（Failed）：任务执行失败。
- 重试（Retry）：任务失败后正在重试。
DAG调度
- Airflow Scheduler根据schedule_interval定期触发DAG。
- 可以通过Web UI手动触发DAG。

任务实例 Task Instances¹

任务的一个实例是该任务在特定 DAG（以及特定数据时间间隔）中的一次具体运行。任务实例也是具有状态的任务的表示，反映了它所处的生命周期阶段。

Task Lifecycle Diagram

任务实例的可能状态包括：

none：任务尚未被排队执行（其依赖条件尚未满足）。
scheduled：调度器已确定任务的依赖条件已满足，可以运行。
queued：任务已被分配给执行器，正在等待工作进程。
running：任务正在工作进程上运行（或在本地/同步执行器上运行）。
success：任务成功完成，没有错误。
restarting：任务在运行时被外部请求重新启动。
failed：任务在执行过程中出现错误，未能运行。
skipped：由于分支、LatestOnly 或类似原因，任务被跳过。
upstream_failed：上游任务失败，触发规则要求需要它。
up_for_retry：任务失败，但还有重试机会，将被重新调度。
up_for_reschedule：任务是一个处于重新调度模式的传感器。
deferred：任务已委托给触发器。
removed：任务在运行开始后从 DAG 中消失。

理想情况下，任务应从 none 状态开始，依次经过 scheduled、queued、running，最终达到 success 状态。

2.2 Operator类型详解

Airflow提供了多种Operator，用于实现不同的任务逻辑。以下是常用的Operator类型：

PythonOperator
- 用于执行Python函数。
- 示例：调用自定义函数处理数据。
BashOperator
- 用于执行Bash命令。
- 示例：运行脚本或命令行工具。
TaskFlow API
- 通过@task装饰器简化任务定义。
- 支持任务间的数据传递。
BranchOperator
- 用于条件分支，根据条件选择执行路径。
EmptyOperator
- 用于表示依赖关系，不执行实际逻辑。

2.3 任务依赖关系与XCom通信机制

任务依赖关系通过>>或<<操作符定义，XCom用于任务间的数据传递。

任务依赖关系
- task1 >> task2：task1完成后执行task2。
- task1 << task2：task2完成后执行task1。
XCom通信机制
- 任务可以通过xcom_push方法推送数据。
- 后续任务通过xcom_pull方法获取数据。

2.4 示例：A股数据预处理流水线

以下是一个完整的示例，展示如何设计一个A股数据预处理流水线，包括数据抓取、清洗和存储。

2.4.1 定义DAG与任务

import os
from datetime import timedelta

import pandas as pd
import pendulum
import tushare as ts

from airflow import DAG
from airflow.configuration import conf
from airflow.operators.python import PythonOperator

# 配置 Tushare API
TS_TOKEN = conf.get("tushare", "api_token")  # 替换为您的Tushare Token
ts.set_token(TS_TOKEN)  # 设置Tushare API Token
pro = ts.pro_api()  # 初始化Tushare API客户端

# 数据存储路径
DATA_DIR = conf.get("tushare", "data_folder")  # Airflow数据存储目录
os.makedirs(DATA_DIR, exist_ok=True)  # 确保目录存在


def fetch_stock_data(**kwargs):
    """抓取A股日线数据并存储为Parquet文件。

    :param kwargs: Airflow任务上下文
    """
    # 获取任务执行日期，格式为YYYYMMDD
    execution_date = kwargs["execution_date"].strftime("%Y%m%d")
    # 定义股票代码列表（示例：沪深300成分股）
    stock_codes = ["600000.SH", "600036.SH", "000001.SZ"]
    # 抓取股票代码数据
    try:
        # 抓取指定日期的A股日线数据
        df = pro.daily(
            ts_code=",".join(stock_codes),
            start_date="20250101",  # 默认开始日期
            end_date=execution_date,
        )
        # 定义Parquet文件存储路径
        file_path = os.path.join(DATA_DIR, "stock_data.parquet")
        # 将数据存储为Parquet文件
        df.to_parquet(file_path, index=False)
        # 打印数据存储路径，便于调试
        print(f"Data saved to {file_path}")
    except Exception as e:
        # 捕获异常并打印错误信息
        print(f"Error fetching data for {execution_date}: {e}")


def clean_stock_data(**kwargs):
    """清洗A股数据。

    :param kwargs: Airflow任务上下文，包含执行日期等信息
    """
    # 获取任务执行日期，格式为YYYYMMDD
    execution_date = kwargs["execution_date"].strftime("%Y%m%d")
    try:
        # 读取Parquet文件
        file_path = os.path.join(DATA_DIR, "stock_data.parquet")
        df = pd.read_parquet(file_path)

        # 清洗数据：处理缺失值
        df = df.dropna()  # 删除缺失值

        # 更新Parquet文件
        file_path = os.path.join(DATA_DIR, "cleaned_stock_data.parquet")
        df.to_parquet(file_path, index=False)

        # 打印数据清洗完成存储路径，便于调试
        print(f"Data saved to {file_path}")
    except Exception as e:
        # 捕获异常并打印错误信息
        print(f"Error cleaning data for {execution_date}: {e}")


# 定义DAG默认参数
default_args = {
    "owner": "airflow",  # DAG所有者
    "depends_on_past": False,  # 是否依赖过去任务
    "email_on_failure": False,  # 任务失败时是否发送邮件
    "email_on_retry": False,  # 任务重试时是否发送邮件
    "retries": 1,  # 任务重试次数
    "retry_delay": timedelta(minutes=5),  # 任务重试间隔
}

# 定义DAG
with DAG(
    "stock_data_pipeline",  # DAG名称
    default_args=default_args,  # 默认参数
    description="A股数据预处理流水线",  # DAG描述
    schedule_interval=timedelta(days=1),  # 调度间隔（每天执行一次）
    start_date=pendulum.today().add(days=-1),  # DAG开始日期
    tags=["quant", "tushare"],  # DAG标签
) as dag:
    # 定义抓取数据任务
    fetch_task = PythonOperator(
        task_id="fetch_stock_data",  # 任务ID
        python_callable=fetch_stock_data,  # 任务执行函数
        provide_context=True,  # 提供任务上下文
    )

    # 定义清洗数据任务
    clean_task = PythonOperator(
        task_id="clean_stock_data",  # 任务ID
        python_callable=clean_stock_data,  # 任务执行函数
        provide_context=True,  # 提供任务上下文
    )

    # 定义任务依赖关系
    fetch_task >> clean_task  # fetch_task完成后执行clean_task

2.4.2 验证结果

触发DAG：通过Airflow Web UI或命令行触发DAG。
检查日志：在Web UI中查看任务日志，确认数据抓取和清洗成功。

验证数据：检查Parquet文件是否生成，使用以下代码验证：

import pandas as pd
# 读取Parquet文件
df = pd.read_parquet("/opt/airflow/data/cleaned_stock_data.parquet")
# 打印数据前5行，验证内容
print(df.head())

2.5 错误处理与重试机制

在实际应用中，任务可能会因为网络问题或其他原因失败。Airflow提供了重试机制来处理这种情况。

重试配置
- 在DAG或任务中设置retries和retry_delay。
- retries：任务失败后重试次数。
- retry_delay：重试间隔。
示例：配置重试机制

default_args = {
    'owner': 'airflow',
    'depends_on_past': False,
    'email_on_failure': False,
    'email_on_retry': False,
    'retries': 3,  # 重试3次
    'retry_delay': timedelta(minutes=5),  # 每次重试间隔5分钟
}