由于动态规划需要环境模型已知,而实际情况却比较复杂,因此本处提出了蒙特卡洛方法来解决对环境模型要求已知的问题 动态规划的更新依赖贝尔曼方程,仅适用于问题规模较小的情况; 蒙特卡洛方法需要更多的计算资源,更适用于预测问题和交互问题