![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
动态规划
zte10096334
这个作者很懒,什么都没留下…
展开
-
【Porteus】S-policy 和 (s,S)-policy
1. 背景考虑单产品多周期的库存管理问题,寻求最优的订货策略,使得总体成本最低。在每个周期,如果订货过多,导致库存多余,会产生库存持有成本;如果订货较少,导致缺货,会有延迟交货成本(这里假设缺货的情况下不会丢失订单)。2. 模型参数含义cHc_HcH单位产品库存持有成本cPc_PcP单位产品延迟交付成本ccc单位产品订货成本DDD单周期内需求...原创 2019-11-16 10:47:20 · 1780 阅读 · 0 评论 -
【库存笔记5】Optimal Dynamic Scheduling Policy for a Make-To-Stock Production System
背景模型主题动态调度问题 (dynamic scheduling problem)模型$$生产系统2个产品生产时间:指数分布,均值 1/μi1/{\mu_i}1/μi需求2个产品的需求, 各自满足 Poisson 分布第 iii 类需求的rate:λi\lambda_iλi成本单位产品库存持有成本 hih_ihi单位产品延迟...原创 2019-10-14 20:32:05 · 202 阅读 · 0 评论 -
【库存笔记4】Joint Pricing and Production Control for a Manufacturer With Volume Flexibility
背景模型主题单一产品,通过两个渠道销售(one local and the other contractual)类型备货型生产 make-to-stock生产最大生产效率 aaalocal channe需求服从 Poisson 分布,平均速率 μi\mu_iμi 依赖于销售价格 ri (i=1,⋯ ,k)r_i \; (i=1,\cdot...原创 2019-10-11 19:32:45 · 192 阅读 · 0 评论 -
【库存笔记3】Dynamic Pricing and Inventory Control in a Make-to-Stock Queue With Information on the Prod
背景模型场景在单一设备生产单一产品的制造商模型M/Ek/1M/E_k/1M/Ek/1生产系统单产品,make-to-stock生产时间:kkk-Erlang 分布,均值1/μ1/{\mu}1/μ需求需求对价格敏感。 高价格时低需求、 低价格时高需求价格 p1>p2>cp_1>p_2>cp1>p2>c...原创 2019-10-11 17:20:29 · 183 阅读 · 0 评论 -
【库存笔记2】Coordinating Batch Production and Pricing of a Make-to-Stock Product
背景模型主题批量生产, 单个销售类型备货型生产 make-to-stock生产批量生产,数目为常数 bbb生产时间服从指数分布,均值为 1/μ1/\mu1/μ,速率满足 0≤μ≤a0\leq\mu\leq a0≤μ≤a销售高价格(导致低需求)、 低价格(导致高需求)价格 p1>p2>cbp_1>p_2>\frac{c...原创 2019-10-11 15:03:32 · 146 阅读 · 0 评论 -
【库存笔记1】Stock Rationing in an M/ E_k / 1 Make-to-Stock Queue
主题库存分配问题 (stock rationing problem)生产系统单产品,make-to-stock需求多类需求 (several demand classes)分布需求满足 Poisson 分布,生产时间满足 Erlang 分布关键变量存在一个状态变量(工作存储水平 work storage level)可以用于完全捕获有关库存水平...原创 2019-10-10 16:47:25 · 195 阅读 · 0 评论 -
Dynamic Programming and Optimal Control 第四章习题
4.3 Consider an inventory problem similar to the problem of Section 4.2 (zero fixed cost). The only difference is that at the beginning of each period kkk the decision maker, in addition to knowing t...原创 2019-06-15 18:58:52 · 1412 阅读 · 0 评论 -
Dynamic Programming and Optimal Control 第三章习题
3.9 Use the Minimum Principle to solve the linear-quadratic problem of Example 3.2.2.Solution. The nnn-dimension linear-quadratic system is given byx˙(t)=Ax(t)+Bu(t)\dot x(t)=Ax(t)+Bu(t)x˙(t)=Ax(t)+...原创 2019-06-08 21:10:49 · 1621 阅读 · 1 评论 -
Dynamic Programming and Optimal Control 第一章习题
1.2 Carry out the calculations needed to verify that J0(1)=2.67J_0(1)=2.67J0(1)=2.67 and J0(2)=2.608J_0(2)=2.608J0(2)=2.608 in Example 1.3.2.Answer. The result in the exercise is wrong, even not t...原创 2019-05-18 23:30:15 · 2157 阅读 · 2 评论 -
强化学习笔记2:Finite Markov Decision Processes
马尔科夫决策过程(Markov Decision Processes, MDPs) 是时序决策的一种经典形式,每一步动作不仅影响当前的回报,还影响后续的状态和回报。因此,MDPs包含了延迟回报,需要权衡(tradeoff)当前回报和延迟回报。在赌博机问题中,我们关心每个动作的价值 q∗(a)q_*(a)q∗(a);而在MDPs中,我们关心每个动作 aaa 在状态 sss 下的价值 q∗(s,a)...原创 2018-11-10 10:43:39 · 1269 阅读 · 0 评论 -
强化学习笔记1:Multi-armed Bandits
1. 强化学习的元素对应Sutton书的1.3节。强化学习包括了两个基本元素 agent 和 enviroment,除此之外还包含有四个主要的子元素:. policy : 定义了机器人在每个特定时刻的选择动作的策略。它可以看做是从环境的状态集合到可采取的动作集合之间的一个映射。. reward signal :定义了强化学习问题的目标。在每一步动作,环境都会给机器人一个数值反馈( r...原创 2018-10-27 14:43:14 · 3048 阅读 · 4 评论