归因分析：马尔可夫链模型在广告转化路径中的应用

本文链接：https://blog.csdn.net/weixin_44976692/article/details/146238914

个人名片

🎓作者简介：java领域优质创作者
🌐个人主页：码农阿豪
📞工作室：新空间代码工作室（提供各种软件服务)
💌个人邮箱：[2435024119@qq.com]
📱个人微信：15279484656
🌐个人导航网站：www.forff.top
💡座右铭：总有人要赢。为什么不能是我呢？

专栏导航：

码农阿豪系列专栏导航
面试专栏：收集了java相关高频面试题，面试实战总结🍻🎉🖥️
Spring5系列专栏：整理了Spring5重要知识点与实战演练，有案例可直接使用🚀🔧💻
Redis专栏：Redis从零到一学习分享，经验总结，案例实战💐📝💡
全栈系列专栏：海纳百川有容乃大，可能你想要的东西里面都有🤸🌱🚀

归因分析：马尔可夫链模型在广告转化路径中的应用

在数字广告领域，归因分析（Attribution Analysis）是衡量广告效果的关键技术。它帮助广告主理解不同广告渠道对最终转化的贡献，从而优化广告预算分配。传统的归因模型（如最后一次点击、线性归因）往往忽略了用户行为的复杂性和路径间的相互影响。马尔可夫链模型（Markov Chain Model）通过捕捉用户路径中的状态转移概率，提供了一种更科学的归因方法。本文将详细介绍马尔可夫链模型在广告转化路径中的应用，并结合代码示例展示其实现过程。

1. 归因分析的挑战

在广告投放过程中，用户通常会经历多个接触点（Touchpoints），例如：

点击展示广告
观看视频广告
搜索品牌关键词
直接访问网站

传统的归因模型存在以下局限性：

忽略路径复杂性：用户行为路径可能包含多个步骤，传统模型无法准确反映各步骤的贡献。
忽视路径间的影响：某些广告渠道可能对其他渠道的效果有间接影响（如品牌广告提升搜索广告的转化率）。
数据稀疏性：某些路径可能样本量不足，导致归因结果不准确。

马尔可夫链模型通过建模用户路径中的状态转移，能够有效解决上述问题。

2. 马尔可夫链模型简介

马尔可夫链是一种随机过程，其核心假设是“未来状态只依赖于当前状态，而与过去状态无关”。在广告归因中，马尔可夫链模型将用户路径中的每个接触点视为一个状态，通过计算状态间的转移概率来量化各渠道的贡献。

2.1 状态定义

开始状态（Start）：用户进入路径的起点。
中间状态（Channel）：用户接触的广告渠道（如展示广告、搜索广告）。
转化状态（Conversion）：用户完成目标行为（如购买、注册）。
空转化状态（Null）：用户未完成转化。

2.2 转移概率矩阵

转移概率矩阵描述了从一个状态到另一个状态的概率。例如：

从“展示广告”到“搜索广告”的概率为0.3。
从“搜索广告”到“转化”的概率为0.2。

3. 马尔可夫链模型的实现步骤

3.1 数据准备

首先，需要收集用户路径数据。每条路径包含用户接触的广告渠道序列以及是否转化。

示例数据

用户ID	路径	是否转化
1	展示广告 -> 搜索广告 -> 转化	是
2	视频广告 -> 空转化	否
3	展示广告 -> 直接访问 -> 转化	是

3.2 构建转移概率矩阵

通过统计用户路径数据，计算状态间的转移概率。

代码示例：计算转移概率

import pandas as pd
from collections import defaultdict

# 示例数据
data = [
    ['展示广告', '搜索广告', '转化'],
    ['视频广告', '空转化'],
    ['展示广告', '直接访问', '转化']
]

# 统计转移次数
transition_counts = defaultdict(lambda: defaultdict(int))

for path in data:
    for i in range(len(path) - 1):
        current_state = path[i]
        next_state = path[i + 1]
        transition_counts[current_state][next_state] += 1

# 计算转移概率
transition_probabilities = defaultdict(dict)

for current_state, next_states in transition_counts.items():
    total = sum(next_states.values())
    for next_state, count in next_states.items():
        transition_probabilities[current_state][next_state] = count / total

print(transition_probabilities)

输出结果

{
    '展示广告': {'搜索广告': 0.5, '直接访问': 0.5},
    '搜索广告': {'转化': 1.0},
    '视频广告': {'空转化': 1.0},
    '直接访问': {'转化': 1.0}
}

3.3 计算移除效应

移除效应（Removal Effect）是马尔可夫链模型的核心思想。通过移除某个渠道，计算转化率的变化，从而量化该渠道的贡献。

代码示例：计算移除效应

def calculate_removal_effect(transition_probabilities, channel_to_remove):
    # 复制转移概率矩阵
    modified_probabilities = defaultdict(dict)
    for current_state, next_states in transition_probabilities.items():
        for next_state, prob in next_states.items():
            if current_state != channel_to_remove and next_state != channel_to_remove:
                modified_probabilities[current_state][next_state] = prob

    # 计算原始转化率和移除后的转化率
    original_conversion_rate = calculate_conversion_rate(transition_probabilities)
    modified_conversion_rate = calculate_conversion_rate(modified_probabilities)

    # 计算移除效应
    removal_effect = original_conversion_rate - modified_conversion_rate
    return removal_effect

def calculate_conversion_rate(probabilities):
    # 假设开始状态为“开始”
    conversion_rate = 0
    stack = [('开始', 1.0)]
    while stack:
        current_state, current_prob = stack.pop()
        if current_state == '转化':
            conversion_rate += current_prob
        else:
            for next_state, prob in probabilities.get(current_state, {}).items():
                stack.append((next_state, current_prob * prob))
    return conversion_rate

# 计算“展示广告”的移除效应
removal_effect = calculate_removal_effect(transition_probabilities, '展示广告')
print(f"展示广告的移除效应: {removal_effect}")