离散选择模型_mnl模型-CSDN博客

本文链接：https://blog.csdn.net/weixin_44372736/article/details/103393395

离散选择模型

1.random utility model
2. representative agent model
3. semi-parametric choice model
4. 其他模型
- 4.1 The Markov chain-based choice model
- 4.2 The two-stage choice model
5. 各模型之间的关系
参考文献

1.random utility model

RUM首次由Thurstone(1927)提出的，该模型假设每个消费者心中对各个产品 $i$ 的效用函数都有由一个固定的效用 $\mu_i, \ i=1,\dots,n$ ，再加上一个扰动效用 $\epsilon_i,\ i=1,\dots,n$ 决定的。因此，对于每个消费者来说，每个产品对于他的实际效用就可以表示为：
$u_i=\mu_i+\epsilon_i,\ \ \ i=1,\dots,n$
其中 $\bm{\mu}=(\mu_1,\dots,\mu_n)^T$ 表示各产品的确定性效用向量， $\bm{\epsilon}=(\epsilon_1,\dots,\epsilon_n)^T$ 表示每个产品的随机效用向量，这些随机变量服从联合概率分布 $\theta(\cdot)$ 。每个消费者会选择所有替代产品中对他而言效用最高的产品。假设 $\textbf{p}=(p_1,\dots,p_n)^T, \ \sum_{i=1}^{n}p_i=1$ 表示消费者对n各替代产品选择的概率，那么消费者最有可能选择的产品的选择概率为：
$p_i=P(i=\arg\max_i (\mu_i+\epsilon_i))$

1.1 the multinomial logit(MNL)

MNL模型是RUM中一种，且运用广泛，首先被McFadden(1974)提出。MNL模型假设 $\bm{\epsilon}$ 服从独立同分布的Gumble分布。此时n各替代产品的选择概率可以写成一下形式：

$p_i^{mnl}=\frac{e^{\mu_i}}{\sum_{k=1}^{n}e^{\mu_k}},\ \ i=1,\dots,n$

MNL模型运用广泛的原因就是不仅拥有确定的选择概率形式，同时该形式还具有很好的性质，例如该函数的对数似然函数具有凹性，这种性质有利于后续研究。但由于MNL假设了随机项是独立同分布的，也就是各产品两两之间选择概率的比值与其他产品的效用无关（Independence of Irrelevant Alternatives, IIA特性）。

$\frac{p_i^{mnl}}{p_j^{mnl}}=e^{\mu_i-\mu_j}\ \ \forall i\not=j$

现实却存在着影响各选择效用的共同因素，组成效用项的某个因素发生变化会引发多种产品的变化，当替代产品之间存在相关关系，那么MNL模型就不能够给予一个很好的选择预测结果。
也属于GEV(Generalized Extrem Value)

1.2 the multinomial probit(MNP)

MNP模型是随即效用模型的随机项服从均值为零，任意方差-协方差矩阵的多元联合高斯分布。因此，与MNL不同，在MNP模型中，随机项的方差可以不同，且各随机项之间可以相关。然而，MNP模型只有在仅存在两个可选择产品时存在显示解。
当只有两个替代产品可供选择时
$\begin{aligned} p_1&=Pr(v_1+\epsilon_1>v_2+\epsilon_2)\\ &=Pr(\epsilon_2-\epsilon_1<v_1-v_2) \end{aligned}$
其中 $\epsilon_2-\epsilon_1\sim N(0,\sigma^2),\ \sigma^2=Var(\epsilon_1)+Var(\epsilon_2)-2Cov(\epsilon_1,\epsilon_2)$ 。
所以 $p_1=\Phi(\frac{v_1-v_2}{\sigma})$

1.3 The nested multinomial logit model(NMNL)

嵌套logit模型有很强的优越性，解决了MNL关于无法解释各替代品之间相关性的问题，同时由于极大似然函数有显式表达式，计算速度比MNP要更快。嵌套logit模型允许替代品之间以一种未被观察到的方式彼此相似，将替代品划分在不同的组里。
以一个两层的嵌套结构为例，假设有n各替代商品，将他们划分为 $K$ 个蔟中 $N_1,N_2,\dots,N_K$ ，则在第 $N_k$ 个蔟中的替代商品 $i$ 被选中的概率为：
$p_i=p(i\in N_k)\times p(i|i\in N_k)$
同时嵌套logit模型也是一种随即效用模型，消费者会选择效用最高的商品。其中商品 $i$ 的效用的随机项设为还有相关性的Gumbel分布，那么选择一个商品可以看作是先选择一个蔟，再在这个蔟中选择需要的商品。这两个阶段都能看作是MNL模型：

$p(i|i\in N_k)=\frac{e^{\frac{1}{\tau_k}\mu_i}}{\sum_{l\in N_k}e^{\frac{1}{\tau_k}\mu_l}}$
$p(i\in N_k)=\frac{e^{\tau_k\ln(\sum_{l\in N_k}e^{\frac{1}{\tau_k}\mu_l})}}{\sum_{j=1}^K(e^{\tau_j\ln(\sum_{l\in N_j}e^{\frac{1}{\tau_j}\mu_l})})}$

因此，选择商品 $i$ 的概率可以写为

$p_i=\frac{e^{\frac{1}{\tau_k}\mu_i}}{\sum_{l\in N_k}e^{\frac{1}{\tau_k}\mu_l}}\cdot\frac{e^{\tau_k\ln(\sum_{l\in N_k}e^{\frac{1}{\tau_k}\mu_l})}}{\sum_{j=1}^K(e^{\tau_j\ln(\sum_{l\in N_j}e^{\frac{1}{\tau_j}\mu_l})})}$

其中 $\tau_k$ 是相异参数，即刻画在一个蔟中各个商品之间的相异程度。当 $\tau_k=1,\ \forall k=1,\dots,K$ 时，该模型就是MNL模型。

1.4 The exponomial choice model(EC)

顾名思义，EC模型的随机项就是服从指数分布，而在这个模型中RUM中的确定项被当作时每个人对于不同选择的理想效用。则由于外界因素会导致该选择的效用下降，因此此时随机项前面为负号。消费者对不同选择有一个排序，

假设 $\mu_1\leq\cdots\leq\mu_n,\ \epsilon_i\ \forall i=1,\dots,n$ 服从参数为 $\lambda$ 的指数分布。那么，选择 $i$ 的概率可以描述为：
$p_i=\frac{exp\left[-\lambda\sum_{j=i}^n(\mu_j-\mu_i)\right]}{n-i+1}-\sum_{k=1}^{i-1}\frac{exp\left[-\lambda\sum_{j=k}^n(\mu_j-\mu_k)\right]}{(n-k)(n-k+1)}$

这种在选择模型中减去一个指数修正项的方法首次被Daganzo(1979)年提出，并将模型命名为NED(negative exponential distribution)模型，但Daganzo只提供了一般选择概率公式，其他相关的模型结构、估计等问题都遗留下来。之后Alptekinoğlu(2015)才对该模型进行了总结概括

2. representative agent model

RAM模型与RUM模型变量设定和模型建立方式完全不同。RAM模型假设消费者是同质的，因此只需要研究一个消费者的决策行为，同时，经济学家认为，尽管消费者有所不同，一定存在一个具有代表性的代理人，这个消费者就被当作代表性代理人。RAM模型就是研究一个个体或一些代表性个体的行为代替整体。定义该代表在n各替代品中的选择向量为 $\bm{x}=(x_1,\dots,x_n),\ \sum_{i=1}^nx_i=1$ ,其中 $x_i$ 可以取 $[0, 1]$ 之间任意值。另外，为了做出选择，消费者会考虑预期的效用，同时倾向于某种程度的多元化。代表性代理人模型需要解决的就是以下优化问题：

$\max_{\sum_{i=1}^nx_i=1}\bm{\mu}^T\bm{x}-V(\bm{x})$

其中 $\bm{\mu}=(\mu_1,\dots,\mu_n)$ 是每个替代品的确定性效用，与随即效用模型的确定性部分类似。 $V(\bm{x})$ 是用以奖励多元化的正则项。相应的，在RAM模型下，消费者选择每一个替代商品的概率向量可以定义为：

$\bm{p}=\arg\max \left\lbrace\bm{\mu}^T\bm{x}-V(\bm{x})\right\rbrace$

但是显然，代表性代理人模型的代理人假设是有弊端的。Kirman(1992)就对该模型持批评态度，认为RAM模型容易忽视个体之间的差异，导致合成谬误。一个有效的替代模型是ABM(Agent-based simulation model),一种仿真模型。另一个是DSGE (dynamic stochastic general equilibrium )。
另外由于总是不可能明确地表明异质性，所以总得来说，代表性代理人模型是非常重要的基础模型。

3. semi-parametric choice model

SCM模型由Natarajan(2009)等提出，与RUM模型中随机项服从一个确定的分布，在半参数选择模型中，随机项 $\epsilon$ 有可能仅已知边际分布或者矩条件，因此服从一类分布集合 $\Theta$ 。那么与RUM类似，选择 $i$ 的概率可以表示为：

$p_i=P_{\theta^*}(i=\arg\max_k(\mu_k+\epsilon_k))$
其中 $\theta^*\in\arg\max_{\theta\in\Theta}E(\max_k(\mu_k+\epsilon_k))$

$\theta^*$ 可以看作是在集合 $\Theta$ 中能够最大期望效用的分布，可以通过规范一些边界条件防止过度乐观。Natarajan et al.由此提出了MDM(marginal distribution model)和MMM(marginal moment model),MDM假设所有的分布都有确定的边际分布，而MMM假设所有的分布都有确定的边际分布的一阶矩和二阶矩。之后，Mishra(2012)等又提出了CMM(cross moment model),假设所有分布都已知一阶矩和二阶方差协方差矩阵。
本质上，半参数选择模型可以被看作是随即效用模型的延伸。

4. 其他模型

4.1 The Markov chain-based choice model

基于Markov chain的选择模型假设每个人在心中对各产品有一个确定的排序（包括不买这个选择），当一个消费者到达，会先选择自己心中排序第一的产品，如果这个产品不存在，那么他会按照他既定的Markov转移矩阵以一定的概率转移到其他选择，直到选择到他想要且能够购买的产品或者不买离开。该算法的复杂程度为 $\mathcal{O}(n)$ ， $n$ 为商品数量。

假设有n中商品 $\mathcal{N}=\left\lbrace1,2,\dots,n\right\rbrace$ ,其中只有 $\mathcal{S}\subseteq\mathcal{N}$ 可以选择的商品，其他商品皆不可选。此外，消费者还有选择不买的权利，因此 $\mathcal{S}_+=\mathcal{S}\cup\left\lbrace0\right\rbrace$ 为消费者的可选空间，当消费者选择的商品 $j\not\in\mathcal{S}_+$ 就会转移到其他选择，直到买到或者离开停止。对任意 $j\in\mathcal{S}_+$ ， $\pi(j,S)$ 表示每个商品被选择的概率。

假设一个最希望购买 $i\in\mathcal{N}\subseteq\left\lbrace0\right\rbrace$ 的消费者到达的概率为 $\lambda_i=\pi(i,\mathcal{N})$ 并购买商品 $i$ 。如果 $i$ 不可购买，用 $\rho_{ij},\ i\not=j, i\in\mathcal{N},j\in\mathcal{N}\cup\left\lbrace0\right\rbrace$ 表示从商品 $i$ 转移到商品 $j$ 的概率，其中 $i$ 是更希望的得到的产品但 $i\not\in\mathcal{S}_+$ 。该转移概率可以从数据模拟中获得，一旦转移至商品 $j$ ，那消费者的行为和那些一开始就选择商品 $j$ 的人一致。这样只要有消费者到达概率和转移矩阵，我们就可以近似估计出消费者行为。

例如，如果对于 $\mathcal{S}=\left\lbrace\mathcal{N}\setminus\left\lbrace i\right\rbrace|i=1,\dots,n\right\rbrace$ ,我们可以通过下式估计出到达到达概率和转移矩阵：
$\lambda_i=\pi(i,\mathcal{N})$
$\rho_{ij}=\begin{cases} 1,&\text{if}\ i=0,j=0;\\ \frac{\pi(j,\mathcal{N}\setminus\left\lbrace i\right\rbrace)-\pi(j,\mathcal{N})}{\pi(j,\mathcal{N})},&\text{if}\ i\in\mathcal{N},j\in\mathcal{N}\cup\left\lbrace0\right\rbrace,\ i\not=j;\\ 0,&\text{otherwise}. \end{cases}$
其中 $\pi(j,\mathcal{N}\setminus\left\lbrace i\right\rbrace)-\pi(j,\mathcal{N})$ 表示由于商品 $i$ 不可得之后商品 $j$ 增加得概率。在实际模型中， $\rho_{ij}$ 与设定得集合 $\mathcal{S}$ 有关，如果我们已经有数据直到在集合 $\mathcal{S}$ 和 $\mathcal{S}\setminus\left\lbrace i\right\rbrace$ 下的选择概率，那么就可以估计转移概率：
$\rho_{ij}=\tau\cdot\frac{\pi(j,\mathcal{S}\setminus\left\lbrace i\right\rbrace)-\pi(j,\mathcal{S})}{\pi(j,\mathcal{S})}$
实际上基于Markov chain的选择模型经常用于选品优化，并且能在多项式时间内求解。在选品优化问题中目标函数就是最大化期望收益：
$\max_{\mathcal{S}\subseteq\left\lbrace1,\dots,n\right\rbrace}r(\mathcal{S})=\sum_{j\in\mathcal{S}}r_j\cdot\pi(j,\mathcal{S})$
其中 $r_j$ 是商品 $j$ 单位收益， $\pi(j,\mathcal{S})$ 是在集合 $\mathcal{S}$ 下购买商品 $j$ 的概率。很显然该目标函数很难求解，但可以在 $\mathcal{O}(\log1/\epsilon)$ 迭代下得到一个收益在最优收益 $\epsilon$ 内的产品组合，只要选取足够小的 $\epsilon$ 就可以在多项式时间内逼近最优决策。

4.2 The two-stage choice model

Jagabathula(2013)提出了两阶段选择模型，第一阶段消费者考虑与价格（或其他因素）无关，对所有产品（包括选择‘不买’）进行排序，得到基础偏好集合；第二阶段消费者在基础偏好集合中再根据与价格（或其他因素）和潜在消费者偏好相关进行挑选，得到一个更小的集合。例如，可以将第一阶段当作是消费者在不考虑价格的情况下，对所有产品的排序，很显然质量高的产品排在质量低的产品前面。但当考虑价格时，由于消费者预算问题、打折或者其他与价格相关的事件，消费者会排除一些产品（如价格高的产品），得到一个更小的选择集合，一旦这个集合确定，消费者只需要选择质量最高的产品即可，当外界因素不断变化，消费者对产品偏好排序不会变化，但根据外界因素“修剪”过的集合会发生变化。

假设按照商品价格进行排序 $p_1\leq p_1\leq \cdots\leq p_n\leq p_{n+1}$ ,以此为基础设定消费者的WTP(willing to pay) $g\left[p_i,p_{i+1}\right)$ ,表示消费者的WTP落在 $\left[p_i,p_{i+1}\right)$ 区间内。 $\mathcal{S}_i$ 表示在该WTP下可以购买的商品集合 $\left\lbrace1,2,\dots,i\right\rbrace$ ,那么消费者选择商品 $i$ 的概率为
$p_i=\sum_{j=i}^ng\left[p_j,p_{j+1}\right)P_\lambda(i|\mathcal{S}_j)$
其中， $\lambda$ 表示偏好排序的分布， $P_\lambda(i|\mathcal{S}_j)$ 表示在 $\lambda$ 规则下，在 $\mathcal{S}_j$ 的可选集合中选择购买商品 $i$ 的概率。很显然需要消费者预算大于商品 $i$ 的价格，才有可能购买商品 $i$

5. 各模型之间的关系

研究选品优化或者收益管理一个很大问题就是选择离散选择模型。具体使用哪个模型才能刻画需要的行为，可能存在适用的模型并不能进行有效的处理，能进行有效处理的模型不能很好的解释现实意义。因此研究各模型在数学形式上的关系非常重要。

Andreson(1988)等证明一个参数为 $\eta$ 的MNL模型的选择概率与正则项 $V(\bm{x})=\eta\sum_{i=1}^nx_i\log x_i$ 的代表性代理人模型选择概率相同，也就是我们可以将MNL模型的选择概率写成：
$p_i=\arg\max\left\lbrace\bm{\mu}^T\bm{x}-\eta\sum_{i=1}^nx_i\log x_i\bigg|\sum_{i=1}^nx_i=1\right\rbrace$
Hofbauer和Sandholm(2002)将这个结论扩展至整个随机效用模型。他们证明任意随机项是连续分布的随即效用模型，都能够用一个代表性代理人模型给出相同的选择概率。但是反过来就不一定能实现，他们证明了，当可选择商品数量 $n\geq4$ 时，不存在一个随机效用函数的选择概率与正则项为 $V(\bm{x})=-\sum_{i=1}^n\log x_i$ 的代表性代理人模型的选择概率相同。也就是，RAM模型完全包含RUM模型。

Natarajan(2009)等证明MDM模型可以与一个RAM模型等价。假设 $\Theta=\left\lbrace\theta|\epsilon_i\sim F_i(\cdot),\forall i\right\rbrace$ ,其中 $F_i(\cdot)$ 是一直连续分布，那么其选择概率除了用MDM形式表示，还能够写成
$p_i=\arg\max_x\left\lbrace\bm{\mu}^T\bm{x}+\sum_{i=1}^n\int_{1-x_i}^1F_i^{-1}(t)dt\bigg|\sum_{i=1}^nx_i=1\right\rbrace$
同时他们也证明了，MMM模型也能够用一个RAM模型表示。不失一般性地，假设所有随机项的边际期望都为0，那么假设随机项 $\epsilon_i$ 的方差为 $\sigma_i$ ，那么选择概率可以写为
$p_i=\arg\max_x\left\lbrace\bm{\mu}^T\bm{x}+\sum_{i=1}^n\sigma_i\sqrt{x_i(1-x_i)}\bigg|\sum_{i=1}^nx_i=1\right\rbrace$
之后Ahipasaoglu(2013)等证明了CMM也可以用一个RAM表示。至此，所有已经研究过的半参数模型都被证明可以用RAM描述。

Feng(2015)等提出了一个新的选择模型框架，称为welfare-based选择模型。一个拥有单调性、转移不变性以及凸性的函数 $w(\bm{\mu})$ ，就被称为一个选择模型的收益函数。如果这个函数可微，那么选择模型的概率可以表示为 $\bm{p}=\nabla w(\bm{\mu})$ 。用这种方式定义的离散选择模型可以证明与RAM和半参数选择模型之间两两等价，且完全包含RUM模型。与RUM模型之间的区别仅是收益函数各阶偏微分的差别，welfare-based选择模型仅对一、二阶偏导有要求，而RUM要求所有高阶偏导符号不断交换。由此将离散选择模型大的分类整合在一起，研究清楚了各选择模型之间的关系。

另外，Blanchet(2013)等证明基于Markov chain的离散选择模型在数据上是任一随机效用模型真实选择概率的逼近。Jagabathula(2013)等证明两阶段选择模型包含随即效用模型。

参考文献

[1] Ahipasaoglu S D, Li X, Natarajan K. A convex optimization approach for computing correlated choice probabilities with many alternatives[J]. IEEE Transactions on Automatic Control, 2018, 64(1): 190-205.
[2] Alptekinoglu, A., J. Temple. 2013. The exponomial choice model: A new alternative for assortment and price optimization. Working paper.
[3] Anderson S P, De Palma A, Thisse J F. A representative consumer theory of the logit model[J]. International Economic Review, 1988: 461-466.
[4] Blanchet, J., G. Gallego, V. Goyal. 2013. A Markov chain approximation to choice modeling. Working paper.
[5] Daganzo C. Multinomial probit: the theory and its application to demand forecasting[M]. Elsevier, 2014.
[6] Feng G, Li X, Wang Z. Analysis of discrete choice models: A welfare-based framework[J]. arXiv preprint arXiv:1503.01854, 2015.
[7] Gallego, G., R. Ratliff, S. Shebalov. 2014. A general attraction model and sales-based linear program for network revenue management under customer choice. Operations Research.
[8] Heiss, F. Specification(s) of Nested Logit Models. Mannheimer Forschungsinstitut Okonomie und Demographischer Wandel, Mannheim, Germany, 2002
[9] Kirman A P. Whom or what does the representative individual represent?[J]. Journal of economic perspectives, 1992, 6(2): 117-136.
[10] McFadden, D. 1974. Conditional logit analysis of qualitative choice behavior. P. Zarembka, ed., Frontiers in Econometrics. Academic Press, 105-142.
[11] McFadden, Daniel, et al. 1978. Modelling the choice of residential location. Institute of Transportation Studies, University of California.
[12] McFadden, D. 1980. Econometric models for probabilistic choice among products. The Journal of Business 53(3) 13-29
[13] McFadden, D., K. Train. 2000. Mixed MNL models for discrete responses. Journal of Applied Econometrics 15 447-470.
[14] Mishra V K, Natarajan K, Tao H, et al. Choice prediction with semidefinite optimization when utilities are correlated[J]. IEEE Transactions on Automatic Control, 2012, 57(10): 2450-2463.
[15] Natarajan, K., M. Song, C.-P. Teo. 2009. Persistency model and its applications in choice modeling. Management Science 55(3) 453-469.
[16] Small K A. A discrete choice model for ordered alternatives[J]. Econometrica: Journal of the Econometric Society, 1987: 409-424.
[17] Thurstone, L. 1927. A law of comparative judgment. Psychological Review 34(4) 273-286.
[18] Train, K. E. 2009. Discrete Choice Methods with Simulation. Cambridge University Press.