供应链｜NUS覃含章MS论文解读：数据驱动下联合定价和库存控制的近似方法 (二）-CSDN博客

本文链接：https://blog.csdn.net/weixin_53463894/article/details/136216851

在这里插入图片描述

编者按

本次解读的文章发表于 Management Science，原文信息：Hanzhang Qin, David Simchi-Levi, Li Wang (2022) Data-Driven Approximation Schemes for Joint Pricing and Inventory Control Models. https://doi.org/10.1287/mnsc.2021.4212

文章在数据驱动的前提下，研究经典的多周期联合定价和库存控制问题。在此问题中，零售商定期决定其希望销售的产品的价格和库存水平，其目标是通过将库存水平与随机需求（取决于每个时期的价格）相匹配，在有限的范围内最大化预期利润。

鉴于需求函数或随机噪声分布很难准确掌握完整信息，而过去的需求数据相对容易收集，文章假设零售商对噪声分布或真实的需求函数未知，但假设其可以访问需求假设集，并且真实需求函数可以由需求假设集中候选函数的非负组合表示，或者真实需求函数是广义线性的。基于此，文章提出了一种基于数据驱动的近似算法，使用预先收集的需求数据来解决联合定价和库存控制问题，同时证明了算法的样本复杂度界限。在数值研究中，文章演示了如何从数据构建需求假设集，并验证了所提出的数据驱动算法对动态问题的有效性，其结果显著改善了与基准算法相比的最优性差距。

全信息问题以及数据驱动问题的模型和算法前文已述。本篇解读将继续讨论原论文对算法的讨论和拓展，以及数值计算实验对算法有效性的检验。

1 前文回顾

1.1 模型回顾

在文章中，作者们研究了数据驱动环境下的多周期联合定价和库存控制问题。根据零售商对需求和价格信息的已知程度，一般将该问题分类为全信息问题和数据驱动问题。承接前文，当零售商拥有有关随机需求的完整信息，即 $D_t(\cdot)$ 和 $\eta_t$ 已知时，预期利润最大化问题就是经典的有限范围联合定价和库存控制问题 $\mathcal{P}$ 为

其中 $V_t(x_t)$ 为起始库存水平 $x_t$ 下 $t$ 至 $T$ 期的最优期望收益。对于 $t\in[1,\ldots,T]$ ，文章定义 $U_t(y_t,d_t)$ 为起始库存水平 $y_t$ 、期望需求 $d_t$ 下 $t$ 至 $T$ 期的最优期望收益，即

令最优需求方程为

且令 $W_t(y_t)$ 表示 $t$ 至 $T$ 期间的最优预期利润，假设零售商将 $t$ 期间的库存水平设置为 $y_t$ , 即

因此亦有

则最优基础库存清单需求策略 (base-stock list-demand policy) $S_t^*,D_t^*)$ 可被定义为

依据该库存策略，对于 $t\in[1,\ldots,T]$ ，

对于数据驱动问题，零售商对 $D_t(\cdot)$ 或 $\eta_t$ 未知，因此文章假设对于任意时期 $t$ , 需求假设集合为 $\Phi_t:=\{D_t^1(\cdot),\ldots,D_t^{K_t}(\cdot)\}$ 预先已知，其中未知的真实需求函数 $D_t(\cdot)$ 为 $\Phi$ 集合内函数的线性组合。另外定义 $R_t^k(p_t):=p_tD_t^k(p_t)$ 及 $R_t^k(d_t):=d_t(D_t^{k})^{-1}(d_t)$ 为作为所有 $t$ 和 $k$ 的 $\Phi_t$ 中的相关收益函数。原文通过假设3和4保留参数空间的线性结构以进行学习和优化，同时允许基础需求函数具有高度非线性的形式，且确保使用价格需求样本的回归过程得到明确定义（最小二乘法解是唯一的）。对于任何近似算法 $\mathcal{A}$ ，令 $\hat{D}_t(\cdot)$ 和 $\hat{\eta}_t$ 分别为经验预期需求函数和经验噪声分布，由 $t\in[1,\ldots,T]$ 每一个时期的历史数据和算法 $\mathcal{A}$ 估计所得。令 $\hat{R}_t(\cdot)$ 为通过 $\mathcal{A}$ 所得的经验收益函数，且定义
$[\hat{d}_t^{\min},\hat{d}_t^{\max}]:=[\hat{D}_t(p_t^{\max}),\hat{D}_t(p_t^{\min})]$
为经验期望需求的决策空间。因此有

于是定义经验动态规划 $\hat{\mathcal{P}}$

其中

同时定义经验函数与经验策略如下：

与全信息动态规划 $\mathcal{P}$ 类似，经验动态规划 $\hat{\mathcal{P}}$ 可以使用后向归纳法递归求解。

1.2 数据驱动近似算法回顾

针对数据驱动问题，文章给出每个时期 $t$ 需求假设集合 $\Phi_t:=\{D_t^1(\cdot),\ldots,D_t^{K_t}(\cdot)\}$ 以及过往价格-需求对 $\{(p_t^1,d_t^1),\ldots,(p_t^{N_t},d_t^{N_t})\}$ ，基于此二者，文章的目标是构建经验收益函数 $\hat{R}_t(d_t)$ 与经验分布函数 $\hat{\eta}_t$ .

以下是近似算法 DDPIC 的步骤，该算法在每个时期构造经验收入和成本函数的导数，即 $\hat{R}'_t(\cdot)$ 与 $\hat{C}^r_t(\cdot)$ ：

关于算法的近似性能，文章根据数据驱动函数和真实函数之间导数的接近程度来讨论。通过定义现定义“好”事件 $\mathcal{E}(\alpha)$ 和引理2-4，文章证明了模型的主要项式 $\hat{R}_t(\cdot)$ , $\hat{C}_t(\cdot)$ 和 $\mathbb{E}_{\hat{\eta}_t}[\hat{V}_t(q_t-\hat{\eta}_t)]$ 在导数方面分别与 $R_t(\cdot)$ , $C_t(\cdot)$ 和 $\mathbb{E}_{\eta_t}[\hat{V}_t(q_t-\eta_t)]$ 近似，概率随 $N_t$ 增长，其中 $N_t$ 为过往 $t$ 时期价格-需求对的数量，进而得到原文定理1，即对于任意 $\alpha>0$ ，所提出算法能够达到 $\mathcal{\alpha}$ 的概率的下界可计算（该下界数值详见原文定理1）。

随后文章通过一阶和零阶分析，对好事件 $\mathcal{E}(\alpha)$ 推导出所提出的数据驱动近似算法的样本复杂度界限对于任意 $\epsilon >0$ 且 $\beta\in(0,1)$ ，若每个时期 $t\in[1,\ldots,T]$ 内 $N_t\geq N_t(\epsilon,\beta)$ ，则最优期望利润与期望值之间（通过数据驱动策略）的利润的绝对差距不大于 $\epsilon$ 的概率至少为 $1-\beta$ ，其中 $N_t(T,\epsilon,\beta)=O(T^4(T-t+1)^2\epsilon^{-2}\log(T/\beta).$

该样本复杂度界限对于 $\beta$ 的依赖性而言是最优的，因为其与单周期有容量限制的报童问题的信息论下界相匹配（Cheung and Simchi-Levi 2019）。然而，对 $T$ 的依赖性是否紧密仍然未知，因相应的下界仍是开放的。给定准确度水平和概率水平 $\beta$ 来获得 $T$ 阶段联合定价和库存控制问题的近乎最优策略，该界限可以被视为对公司所需样本数量的保守估计。该界限是保守的，因其为针对 $\eta_t$ 的所有可能的基础分布和 $\Phi_t$ 中所有可能的基础需求函数的最坏情况界限。

2 算法拓展

这部分的拓展主要针对前文假设的有限元素需求集，即接下来的讨论以具有有界参数的（广义）线性需求函数集为主，同时还包括算法在具有非线性报童成本的基于抽样的库存控制的应用。

2.1 针对广义线性需求集的拓展

现重新定义需求集 $\Phi_t$ 如下：

其中 $\lambda_t:\mathbb{R}\rightarrow\mathbb{R}$ 为由 $\kappa_t$ , $\theta_t$ 参数化的链接函数，并设计矩阵

假设1：在每个时期 $t\in[1,\ldots,T]$ 中，随机需求为 $D_t(p_t)+\eta_t$ ，其中 $D(\cdot)$ 是确定性需求期望函数，而 $\eta_t$ 是在 $[\omega_t^{\min},\omega_t^{\max}]$ 上有界的零均值连续随机变量，且在时间上独立。 $\eta_t$ 的累积分布函数是 Lipschitz 连续的，常数为 $I_t$ .

假设 2. 在每个时期 $t\in[1,\ldots,T]$ 中, $D_t(\cdot)$ 的反函数 $D_t^{-1}(\cdot)$ 是二次连续可微且严格递减的，其一阶导数和二阶导数是有界的。此外，预期收入函数 $R_t(d_t):=d_tD_t^{-1}(d_t)$ 在预期需求 $d_t$ 中严格凹。

结合前文所述的假设1和2，现对每个时期 $t\in[1,\ldots,T]$ 添加新假设如下：

真实需求函数 $D_t(\cdot)$ 为 $\Phi_t$ 中的一个广义线性函数。
函数 $\lambda_t$ 二阶可导且已知，其一阶和二阶导数的上界分别为 $L_{\lambda_t}^1$ 和 $L_{\lambda_t}^2$ ，且有 $\inf_{x\in[\kappa_t^{\min}p_t^{\min}+\theta_t^{\min},\kappa_t^{\max}p_t^{\max}+\theta_t^{\max}]}\lambda_t^{'}(x)>0.$
样本协方差矩阵的最小特征值存在通用下界 $\underline{\lambda}_t>0$ ，即矩阵 $\lambda_{\min}(\frac{1}{N_t}\Lambda_t)\geq \underline{\lambda}_t$ .

根据假设，至少存在两个不同的 $p_t^i$ 使得矩阵 $\Lambda_t$ 可逆，

为估计参数 $\kappa_t$ 和 $\theta_t$ , 首先找到满足如下两等式的 $\kappa_t\in\mathbb{R}$ 和 $\theta_t\in\mathbb{R}$ ，并将解分别投射在区间 $[\kappa_t^{\min},\kappa_t^{\max}]$ 和 $[\theta_t^{\min},\theta_t^{\max}]$ 上，进而得到 $\hat{\kappa}_t$ 和 $\hat{\theta}_t$ . 于是现有的数据驱动问题中的需求可表示为 $\hat{D}_t(p_t)=\lambda_t(\hat{\kappa}_tp_t+\hat{\theta}_t)$ , 经验收益为 $\hat{R}_t(d_t)=d_t\hat{D}_t^{-1}(d_t)$ . 对于数据集中的每个价格-需求对，定义 $\hat{\eta}_t^j=d_t^j-\hat{D}_t(p_t^k)=\eta_t^j-\Delta_t^j$ 为 $\eta_t$ 的偏差样本，其中 $\Delta_t^j:=D_t(p_t^j)-\hat{D}_t(p_t^j)$ 为偏差项。令 $\mathbb{E}_{\hat{\eta}_t}[f(\hat{\eta})]$ 表示 $\frac{1}{N_t}\sum_{j=1}^{N_t}f(\hat{\eta}_t^j)$ , 则可定义 $\hat{C}_t(q_t)$ 如下：

在此拓展中，文章使用基于最大似然的方法来构建经验收益函数，并且样本中的偏差项需要额外的集中结果。通过原文定理5中，文章表明，样本复杂度界限与前文所述的关于原定数据驱动问题的定理4相同。

2.2 非线性报童问题的成本函数

文章提出，若满足以下假设7，则原文定理4和5中关于样本复杂度界限的定理依然成立：

假设7：在每个时期 $t\in[1,\ldots,T]$ 中，报童问题成本函数 $C_t(q_t)=\mathbb{E}_{\eta_t}[f_t(q_t+\eta_t)]$ , 其中 $f_t:\mathbb{R}\rightarrow\mathbb{R}$ 为凸。对于任意 $q_t\in\mathbb{R}$ , 存在常数 $M_t^C>0$ 满足 $|f_t^l(q_t)|\leq M_t^C$ 以及 $|f_t^r(q_t)|\leq M_t^C$ . 同时，对于任一 $q_t^{'},q_t^{''}\in\mathbb{R}$ , 存在常数 $L_t^C>0$ 满足 $|f_t^l(q_t^{'})-f_t^l(q_t^{''})|\leq L_t^C|q_t^{'}-q_t^{''}|$ 以及 $|f_t^r(q_t)^{'}-f_t^r(q_t^{''})|\leq L_t^C|q_t^{'}-q_t^{''}|$ .

假设 7 确保报童成本函数是具有有界导数和 Lipschitz 导数的凸函数的期望，但不要求函数具有任何（分段）线性结构。对于 $C_t(\cdot)$ 的样本平均近似值 $\hat{C}_t(\cdot)$ ，构建

类似地，对导数应用样本平均近似：

为简化问题，文章主要针对事件 $\forall j=1,\ldots,N_t: |\Delta_t^j|\leq \alpha/(2L_t^C)$ , 即偏差项的上限统一为 $\alpha/(2L_t^C)$ ，且证明（原文命题2）若对于某常数 $\alpha>0$ 满足 $\forall j=1,\ldots,N_t: |\Delta_t^j|\leq \alpha/(2L_t^C)$ ，则

2.3 计算复杂度的降低

文章分析，所提出的DDPIC算法存在一个计算复杂性的问题是，通过 SAA 方法构建的数据驱动动态规划中的函数可能在 $T$ 中具有指数数量的断点。这个问题可通过运用 Cheung 和 Simchi-Levi（2019 ）提出的稀疏化方法，提供多项式时间近似算法来求解数据驱动的动态规划。虽然多项式时间算法比没有稀疏化的 SAA 方法需要更多的样本，但它们的样本复杂度在 $T$ , $\epsilon$ , $\beta$ 中相同。关键的改进是，通过稀疏化技术，算法只需要在多项式断点处评估值函数的导数。

稀疏化的思想是在通过后向归纳法求解动态规划时，通过每个周期的导数重采样步骤来减少 $V_t(x_t)$ 的断点数量。此步骤在以下算法中for循环的最后两行中进行了说明：

文章指出，稀疏化算法对 $N_1, \cdots,N_T,T, \frac{1}{\zeta}$ 具有多项式运行时间，其中稀疏系数 $\zeta$ 控制了运行时间复杂度和样本复杂度的平衡。特别地，若令 $\zeta:=\alpha_1$ (与定理4和5中的标量相同），则算法仍具有样本复杂度 $O(T^6\epsilon^{-2}\log(T/\beta)$ .

3 数值实验

3.1 实验设置

实验问题

考虑 $T = 7$ 个时期、起始库存为 $x$ ，其中 $x$ 由均匀分布 $X\sim[0,80]$ 取样。在每个时期 $t\in\{1,\ldots,T\}$ 中，令可行价格区间为 $p_t^{\min},p_t^{\max}]=[60,90]$ 以及单位订货成本 $c_t=60$ . 需求函数 $D_t(\cdot)$ 有以下三个参数族函数之一：(具体的参数数值请参考原文章节6.1.1）

a. 线性需求： $D_t(p)=\kappa_t+\theta_tp$ （ $t=3，\ldots,7$ ）;

b. 指数需求： $D_t(p)=e^{\kappa_t+\theta_tp}$ （ $t = 1$ ）;

c. 对数需求： $D_t(p)=M_D\cdot e^{\kappa_t+\theta_tp}/(1+e^{\kappa_t+\theta_tp}), M_D=600$ ( $t = 2$ ).

随机噪声 $\eta_t$ 的分布由以下两族选择：

a. 均匀分布： $\text{Unif}(-\omega_t,\omega_t);$

b. 截断正态分布： $\text{Normal}(0,\sigma_t)$ , 只取 $[-\omega_t,\omega_t]$ 范围内的值。

依照上述设定，构建数据驱动问题，对价格-需求对取样，其中对价格在 $p_t^{\min},p_t^{\max}]$ 中取样，并设定 $N_t\in\{20,\cdots,160\}$ .

算法表现衡量标准

令 $\mu=\{\mu_1,\ldots,\mu_T\}$ 为针对 $T$ 与 $x$ 的任意库存策略，其期望收益为 $\pi_1(x;\mu)$ ，使其达到最优的收益 $\pi_1(x;\mu^*)$ 的策略 $\mu^*=\{\mu_1^*,\ldots,\mu_T^*\}$ 为最优策略。文章运用绝对最有差距 (absolute optimality gap), $\pi(\mu^*)-\pi(\mu)$ , 来衡量任意策略与最优策略的期望收益差距，该数值越小则策略越优。

基准算法

对于全信息问题，文章引用Bernstein et al. (2016) 中提出的启发式算法作为基准算法 (Heuristic-FI)。该算法计算短视需求函数 (myopic demand) 作为定价/需求设定策略，并遵循基本库存策略（base-stock policy）来做出库存补货决策。原算法中设定交货时间 (lead time）为正，为符合模型设定，文章化用该算法，细节详见章节6.1.3.

对于数据驱动问题，文章将由DDPIC 所得的收益和成本函数代入 Heuristic-FI 来确定定价和补货决策。该算法被记作 Heuristic-DD.

3.2 构建需求假设集

给定 $N_t$ 个价格-需求对样本 ${p_t^j,d_t^j\}$ ，文章为需求假设集 $\Phi_t$ 构建 $K_t$ 个候选需求函数。具体来说，对每个需求函数族：

根据数据估计价格敏感度参数 $\theta_t$ 的下限 $\hat{\theta}_t^{\min}$ 和上限 $\hat{\theta}_t^{\max}$ ；
在 $\hat{\theta}_t^{\min}$ 与 $\hat{\theta}_t^{\max}$ 之间取5个均匀分布的数值 $\{\theta_t^{(1)},\cdots,\theta_t^{(5)}\}$ ；
利用5组 $\kappa_t^{(k)}$ 和 $\theta_t^{(k)}$ ，构建5个需求函数，其中 $\kappa_t^{(k)}$ 为能最小化给定 $\theta_t^{(k)}\in\{\theta_t^{(1)},\cdots,\theta_t^{(5)}\}$ 经验平方误差的参数。

由于底层需求函数族未知，文章从这三个族中收集候选需求函数，总共 $K_t=15$ 个函数，形成需求假设集 $\Phi_t$ （见图 1）。最后，文章将 $\Phi_t$ 输入到DDPIC算法中，以计算数据驱动的定价和库存补货政策。

3.3 算法表现比较

文章在图2比较了Heuristic-FI、Heuristic-DD 和 DDPIC 与最优收益 $\pi(\mu^*)$ 的绝对最优性差距。可以看到，随着数据大小 $N$ 的增长，最优性差距在所提出的算法 DDPIC 和基准算法 Heuristic-DD 都有所提高（因需求学习和 SAA 过程随着样本的增多而变得更加准确），而Heuristic-FI 是在全信息环境下实现的，因此其收益差距与样本大小无关。在所有三种算法中，DDPIC 在 $N\geq 40$ 时实现最佳性能，并且在该问题设置中，当 $n = 20$ 时，它能够将绝对利润差距保持在 114.30 以下；当 $n = 160$ 时，它能够将绝对利润差距保持在 15.79 以下，即相对差距分别为 $<7.68\%$ 和 $<1.06\%$ .

由于 Heuristic-FI 和 Heuristic-DD 中的启发式设计使用短视需求函数，因此这两种基准算法并不总是表现得良好。当库存水平 $y$ 值很大时，算法的性能通常会下降，此时最优需求函数不能通过启发式逼近，从而导致初始库存平均预期利润差距比 DDPIC 更大。另一方面，所提出的算法DDPIC通过逆向归纳法构造经验动态规划并计算经验解，随着样本量 $N$ 越大，经验需求函数和噪声分布变得更加准确，其性能得以不断提高。但是，当 $N$ 较小时， DDPIC 没有足够的信息来生成类似 Heuristic-FI 接近最优的策略，因为文章假设后者拥有完整的信息。总体而言，在文章的问题设置中，当 $N$ 较大时，DDPIC 能够将两种基准算法的利润差距缩小到 $>85\%$ . 当 $N$ 很小时，Heuristic-FI 的性能可能优于 DDPIC.

3.4 问题设置的影响

文章随后研究了不同程度的报童成本和噪声方差对 DDPIC 和基准算法性能的影响。

首先引入报童成本比例因子 $\lambda_{cost}$ ，即持有成本 $h_t$ 和积压成本 $b_t$ 的乘数。该比例因子影响报童成本与收益之比的大小，因此控制了联合定价和库存控制问题中管理库存的相对“重要性”。表1显示，随着 $\lambda_{cost}$ 的增加，两种数据驱动算法（Heuristic-DD、DDPIC）的利润差距变得更大，因报童对任何供需不匹配的成本“惩罚”都会放大。然而，当 $\lambda_{cost}$ 变化时，Heuristic-FI 的性能要稳定得多，因该算法准确地学习了最佳基础库存水平。此外，文章发现所提出的算法 DDPIC 的最优性差距比两种基准算法的值小得多，因其目标是准确地逼近真实的动态规划，并且比其他基于启发式的算法更不易受到成本放大的影响。所以当 $\lambda_{cost}$ 从 0.5 增加到 1.5 时，DDPIC 相对于基准算法 Heuristic-FI 和 Heuristic-DD 的收益差距从 32% 左右改善到 61% 以上。

其次，文章通过使用 $\eta_t^{'}=\lambda_{cost}\eta_t$ 来改变噪声的方差，其中 $\eta_t$ 为噪声随机变量， $\lambda_{noise}$ 是噪声缩放因子。给定相同数量的样本，噪声缩放因子 $\lambda_{noise}$ 会影响学习任务的“难度”，因为具有较大噪声的需求样本使得需求函数和噪声分布的估计更具挑战性。表2证实了所提出的数据驱动算法DDPIC以最小的 $\lambda$ 噪声值获得了最佳性能，在此情况下算法的收益差距小于16，相当于相对最优性差距<1%。在所有实验中，DDPIC 都能够将基准算法的收益差距缩小 40% 以上。

最后，文章通过实证检验了价格阶梯对所提出算法性能的影响。文章通过搜索离散价格中的最佳价格来修改所提出的算法，并计算每组离散价格的利润差距。表3显示，当可行价格稀疏时，如只有四个离散可行价格{60,70,80,90}的情况所示，所提出算法的修改版本的利润差距明显更大。同时，Heuristic-FI 保持了特别小的最优性差距，因此价格阶梯的稀疏性导致两种数据驱动算法对真实需求模型的学习不足。此外，文章指出， DDPIC算法是为连续定价决策而设计的，因此可能存在更好的数据驱动联合定价和库存控制算法，专门为价格阶梯设计。当离散价格集合较密集时，算法的性能与连续价格区间的原始问题设置相似，并且 DDPIC 能够

4 结论

文章聚焦于数据驱动的联合定价和库存控制问题的样本复杂度界限，证明了该问题相较于一般多阶段随机规划问题的指数样本复杂度界限，具有多项式样本复杂度界限，使得数据驱动解决方案更为可行。
文章提出了一种样本高效算法，并证明其在合理数据量下生成接近最优的定价和库存策略的有效性，凸显了理论发现的实际应用性。
未来研究方向包括将分析扩展到非参数需求函数、解决乘法需求模型和带需求审查的缺货模型的挑战，以及探索改进 $\tilde{O}(T^6)$ 样本复杂度界限以提高效率。

参考文献

Chen X, Simchi-Levi D (2004) Coordinating inventory control and pricing strategies with random demand and fixed ordering cost: The finite horizon case. Oper. Res. 52(6):887–896.

Cheung WC, Simchi-Levi D (2019) Sampling-based approximation schemes for capacitated stochastic inventory control models. Math. Oper. Res. 44(2):668–692.

Negahban S, Wainwright MJ (2011) Estimation of (near) low-rank matrices with noise and high-dimensional scaling. Ann. Statist. 39(2):1069–1097.

Bernstein F, Li Y, Shang K (2016) A simple heuristic for joint inventory and pricing models with lead time and backorders. Management Sci. 62(8):2358–2373.