GISTransport 农场-CSDN博客

原创强化学习之Passive learning求解 (1)

在MDP系列博客中，我们以一个Agent在4*3网格中寻找终点最优的路径策略为例，论述了MDP问题的原理和求解。有了MDP讲解作为基础之后，我们就可以正式的切入到“强化学习”的学习中来了。强化学习的目的是通过观测到的reward来为当前环境学习一个（近似）最优的策略。在MDP系列问题中，我们有一个完整的环境模型并且reward函数也是已知的。在本文中我们将假设一个fully observable的环境（即当前状态可以通过每一步的感知获取）。另一方面，我们假设Agent 不知...

2021-12-01 06:26:18 1171 1

原创策略迭代算法求解MDP实现 policy iteration algorithm （MDP之三）

在MDP原理和求解博客中我们讲有两种常见的MDP求解方法，上一篇博客介绍了价值迭代算法的python 实现，本文中我们继续介绍另一种MDP求解算法，即策略迭代算法。首先回归一下policy iteration的算法原理，如下图所示：接下来是算法的实现，第一步和value iteration algorithm 一样，同样是定义状态转移概率：import numpy as np#定义状态转移矩阵upprobolity= [[0.1,0.1,0,0,0.8,0,0,0,0,0...

2021-11-29 18:45:14 2777 1

原创价值迭代算法求解MDP实现 value iteration algorithm （MDP之二）

上一篇博文介绍了MDP问题以及对应的价值迭代和策略迭代两种解法，本文我们将手把手使用python 实现在4*3格网对value iteration algorithm 进行实现。首先回顾value iteration算法，如下图所示：其中输入中最重要的就是构造 p(s'|s, a)，我们可以采用矩阵的方式，因为一共有12个格子和4种动作，所以p(s'|s,a)可以表示为一个4*12*12的矩阵。首先我们对12个格网进行编号以便方便描述，如下图所示：接下来我们就...

2021-11-28 19:53:33 5968 1

原创马尔科夫决策过程原理和求解（MDP之一）

在学习强化学习之前，首先介绍一个概念叫马尔科夫决策过英文全称为Markov decision process（MDP）。理解该概念对于强化学习的理解具有重要帮助。好了，下面开始。一、Markov decision process 马尔科夫决策过英文全称为Markov decision process（MDP）它是指在fully observable、stochastic environment 环境下的序列决策(sequential decision)问题，其中涉及Marko...

2021-11-28 11:20:57 3611

原创 Pytorch LSTM模型参数详解

本文主要依据 Pytorch 中LSTM官方文档，对其中的模型参数、输入、输出进行详细解释。目录基本原理模型参数 Parameters输入Inputs: input, (h_0, c_0)输出Outputs: output, (h_n, c_n)变量Variables备注基本原理首先我们看下面这个LSTM图，对应于输入时间序列中每个步长的LSTM计算。对应的公式计算公式如下：其中表示步...

2021-09-17 11:22:57 9598

原创从零开始实现，LSTM模型进行单变量时间序列预测

上一篇博客讲了基于LSTM不同类型的时间预测，这篇文档使用pytorch 动手实现如何基于LSTM模型单变量时间预测。同样使用sns flight（数据网盘下载连接见文末）作为数据源，这里将数据下载下来存放在本机中。首先读取存储在本机中的flights.csv数据：import torchimport torch.nn as nnimport numpy as npimport pandas as pdimport matplotlib.pyplot as plt%ma...

2021-09-16 15:47:34 9695 3

原创如何使用LSTM模型进行时间序列预测

在看LSTM模型的时候有讲原理的有讲实现的，但是关于模型的应用总是存在一些困惑，特别是关于不同类型的时间预测。找了一片英文博客感觉讲的比较清晰，因此做一总结如下：从大的方面讲：单变量LSTM模型、多变量LSTM模型、多步LSTM模型、多变量多步LSTM模型。1.单变量LSTM模型1. 数据准备故名思意，单变量模型是输入的特征维度为1。其目标是根据过去的观测，来预测下一个观测点的值。假定时间序列为：[10, 20, 30, 40, 50, 60, 70, 80,...

2021-09-14 17:07:16 12388

原创动手学习深度学习笔记4：自定义含模型参数的层

在学习笔记3中我们知道Parameter 也是属于Tensor的一个子类，如果定义了一个Parameter，他会被自动添加到模型的参数中。所以在定义含模型参数的层时，使用Parameter即可，或者是我们也可以使用ParameterList或ParameterDict。下面以ParameterList为例，描述使用方法，ParameterDict的使用方法参见这里。class MyDense(nn.Module): def __init__(self): s...

2021-09-14 09:53:05 277

原创动手学习深度学习笔记3：Sequential构建模型与参数初始化

Module 类是一个通用的模型构造类，是所有神经网络模块的基类。可以基于该类构件神经网络的层（layer, 如Linear层）或者直接构建模型。继承该函数一般需要重载__init__函数和forward函数,分别用于创建模型参数和定义前向计算。除了采用直接继承定义模型以外，pytorch 还提供了更加还实现了继承自Module的可以方便构建模型的类: 如Sequential、ModuleList和ModuleDict等等Sequential类：可以通过添加子模块的...

2021-09-14 09:24:25 5595 1

原创动手学习深度学习笔记2：pytorch 模型构建基础

学习《动手学习深度学习》过程中，作者在第3章深度学习基础中，对线性回归、softmax回归、多层感知机等几个模型分别采用了从零开始实现和简洁实现两种实现方式，目的是为了让读者对模型训练的内部机理有更加清晰的认识，但是由于这两种方式通常放置在不同的小节，看起来比较费劲，所以这里以线性回归模型为例，从读取数据、获取批量数据、初始化模型参数、定义模型、定义损失函数、定义优化函数、模型训练等7个方面的两种不同实现方式（分别称之为自定义方式和Pytorch 内置方式两种）进行对比，以便记忆和理解。...

2021-09-12 18:49:17 340

原创动手学习深度学习笔记1：深度学习基础

正则化：在数据量比较小的情况容易出现过拟合的情况，正则化是解决这一问题的解决方案之一。丢弃法：以一定的概率丢弃隐藏层中的神经元，丢弃概率是丢弃法的超参数，通常建议把离输出层附近的隐藏层的丢弃概率设置的小一点。丢弃法仅仅在训练模型时起作用，在模型测试中不应该使用丢弃法。丢弃法也可以在一定程度上解决过拟合的问题。反向传播：同时依赖于模型参数和变量（如隐藏变量）的当前值，由于在模型训练时交替使用正向和反向传播来进行模型参数的更新，我们可以直接利用正向传播中计算得到中间变量值来进行反向更新实现复用，但是这同

2021-09-11 17:50:11 96

weixin_53146190的博客