自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 强化学习之Passive learning求解 (1)

在MDP系列博客中,我们以一个Agent在4*3网格中寻找终点最优的路径策略为例,论述了MDP问题的原理和求解。有了MDP讲解作为基础之后,我们就可以正式的切入到“强化学习”的学习中来了。强化学习的目的是通过观测到的reward来为当前环境学习一个(近似)最优的策略。在MDP系列问题中,我们有一个完整的环境模型并且reward函数也是已知的。 在本文中我们将假设一个fully observable的环境(即当前状态可以通过每一步的感知获取)。另一方面,我们假设Agent 不知...

2021-12-01 06:26:18 1171 1

原创 策略迭代算法求解MDP实现 policy iteration algorithm (MDP之三)

在MDP原理和求解博客中我们讲有两种常见的MDP求解方法,上一篇博客介绍了价值迭代算法的python 实现,本文中我们继续介绍另一种MDP求解算法,即策略迭代算法。首先回归一下policy iteration的算法原理,如下图所示:接下来是算法的实现,第一步和value iteration algorithm 一样,同样是定义状态转移概率:import numpy as np#定义状态转移矩阵upprobolity= [[0.1,0.1,0,0,0.8,0,0,0,0,0...

2021-11-29 18:45:14 2777 1

原创 价值迭代算法求解MDP实现 value iteration algorithm (MDP之二)

上一篇博文介绍了MDP问题以及对应的价值迭代和策略迭代两种解法,本文我们将手把手使用python 实现在4*3格网对value iteration algorithm 进行实现。首先回顾value iteration算法,如下图所示:其中输入中最重要的就是构造 p(s'|s, a),我们可以采用矩阵的方式,因为一共有12个格子和4种动作,所以p(s'|s,a)可以表示为一个4*12*12的矩阵。首先我们对12个格网进行编号以便方便描述,如下图所示:接下来我们就...

2021-11-28 19:53:33 5968 1

原创 马尔科夫决策过程原理和求解(MDP之一)

在学习强化学习之前,首先介绍一个概念叫马尔科夫决策过英文全称为Markov decision process(MDP)。理解该概念对于强化学习的理解具有重要帮助。好了,下面开始。一、Markov decision process 马尔科夫决策过英文全称为Markov decision process(MDP)它是指在fully observable、stochastic environment 环境下的序列决策(sequential decision)问题,其中涉及Marko...

2021-11-28 11:20:57 3611

原创 Pytorch LSTM模型 参数详解

本文主要依据 Pytorch 中LSTM官方文档,对其中的模型参数、输入、输出进行详细解释。目录基本原理模型参数 Parameters输入Inputs: input, (h_0, c_0)输出Outputs: output, (h_n, c_n)变量Variables备注基本原理首先我们看下面这个LSTM图,对应于输入时间序列中每个步长的LSTM计算。对应的公式计算公式如下: 其中表示步...

2021-09-17 11:22:57 9598

原创 从零开始实现,LSTM模型进行单变量时间序列预测

上一篇博客讲了基于LSTM不同类型的时间预测,这篇文档使用pytorch 动手实现如何基于LSTM模型单变量时间预测。同样使用sns flight(数据网盘下载连接见文末) 作为数据源,这里将数据下载下来存放在本机中。首先读取存储在本机中的flights.csv数据:import torchimport torch.nn as nnimport numpy as npimport pandas as pdimport matplotlib.pyplot as plt%ma...

2021-09-16 15:47:34 9695 3

原创 如何使用LSTM模型进行时间序列预测

在看LSTM模型的时候有讲原理的有讲实现的,但是关于模型的应用总是存在一些困惑,特别是关于不同类型的时间预测。找了一片英文博客感觉讲的比较清晰,因此做一总结如下:从大的方面讲:单变量LSTM模型、多变量LSTM模型、多步LSTM模型、多变量多步LSTM模型。1.单变量LSTM模型1. 数据准备 故名思意,单变量模型是输入的特征维度为1。其目标是根据过去的观测,来预测下一个观测点的值。假定时间序列为:[10, 20, 30, 40, 50, 60, 70, 80,...

2021-09-14 17:07:16 12388

原创 动手学习深度学习笔记4:自定义含模型参数的层

在学习笔记3中我们知道Parameter 也是属于Tensor的一个子类,如果定义了一个Parameter,他会被自动添加到模型的参数中。所以在定义含模型参数的层时,使用Parameter即可,或者是我们也可以使用ParameterList或ParameterDict。下面以ParameterList为例,描述使用方法,ParameterDict的使用方法参见这里。class MyDense(nn.Module): def __init__(self): s...

2021-09-14 09:53:05 277

原创 动手学习深度学习笔记3:Sequential构建模型与参数初始化

Module 类是一个通用的模型构造类,是所有神经网络模块的基类。可以基于该类构件神经网络的层(layer, 如Linear层)或者直接构建模型。继承该函数一般需要重载__init__函数和forward函数,分别用于创建模型参数和定义前向计算。 除了采用直接继承定义模型以外,pytorch 还提供了更加还实现了继承自Module的可以方便构建模型的类: 如Sequential、ModuleList和ModuleDict等等Sequential类: 可以通过添加子模块的...

2021-09-14 09:24:25 5595 1

原创 动手学习深度学习笔记2:pytorch 模型构建基础

学习《动手学习深度学习》过程中,作者在第3章深度学习基础中,对线性回归、softmax回归、多层感知机等几个模型分别采用了从零开始实现和简洁实现两种实现方式,目的是为了让读者对模型训练的内部机理有更加清晰的认识,但是由于这两种方式通常放置在不同的小节,看起来比较费劲,所以这里以线性回归模型为例,从读取数据、获取批量数据、初始化模型参数、定义模型、定义损失函数、定义优化函数、模型训练等7个方面的两种不同实现方式(分别称之为自定义方式和Pytorch 内置方式两种)进行对比,以便记忆和理解。...

2021-09-12 18:49:17 340

原创 动手学习深度学习笔记1:深度学习基础

正则化:在数据量比较小的情况容易出现过拟合的情况,正则化是解决这一问题的解决方案之一。 丢弃法:以一定的概率丢弃隐藏层中的神经元,丢弃概率是丢弃法的超参数,通常建议把离输出层附近的隐藏层的丢弃概率设置的小一点。丢弃法仅仅在训练模型时起作用,在模型测试中不应该使用丢弃法。丢弃法也可以在一定程度上解决过拟合的问题。 反向传播:同时依赖于模型参数和变量(如隐藏变量)的当前值,由于在模型训练时交替使用正向和反向传播来进行模型参数的更新,我们可以直接利用正向传播中计算得到中间变量值来进行反向更新实现复用,但是这同

2021-09-11 17:50:11 96

原创 梯度下降、随机梯度下降、小批量梯度下降详解+ 训练集、验证集、测试集的使用

一、梯度下降+随机梯度下降+小批量梯度下降假设m个样本作为输入: 需要拟合的函数为: 目标是为了找到最合适的参数,使得拟合的效果最好,因此可以定义如下损失函数: 如何求解呢,这里我们就需要用到梯度下降法,目前主要包括三种类型的梯度下降法。(一)批量梯度下降(Batch Gradient descent,BGD)每次参数更新时,根据所有样本来计算梯度,即所有样本都参与了loss值的计算。对...

2021-09-10 13:05:00 1839

原创 一文搞懂 Geopandas和OSMNX 安装

以下安装假设你的电脑是window 系统且已经安装了Anaconda,如果没有的话建议预先配置好相关环境。一、 安装GeopandasGeopandas可以说是基于python地理信息处理过程中不可或缺的一个软件,如果使用pip install geopandas 这个命令会提示缺少Fiona 等库而无法安装时建议采用离线的方式进行安装。因为Geopandas需要pyproj, rtree, 以及shapely作为支撑,另外Fiona库同时又需要依赖GDAL作为支撑。...

2021-09-03 07:39:32 532

原创 蚁群算法求解旅行商问题详解

在查找蚁群算法的资料时网上有很多讲解,细心的同学可能会发现,有几个热门的版本所介绍的蚁群算法有一些细微的差别,这是因为蚁群算法有很多种不同的变体,因此看到的介绍并不一致。所以决定从新将Marco Dorigo于1997年发表的文章Ant Colony System: A Cooperative Learning Approach to the Traveling Salesman Problem仔细的捋了一遍,并将其中的一些细节问题做了一些注解。一、背景 (一)旅行商问题(TSP...

2021-09-02 21:42:55 4997

原创 基于共享单车轨迹的自行车道规划(读书笔记)

​​​​​ 近来重新学习了一下Planning Bike Lanes based on Sharing-Bikes’ Trajectories这篇文章,觉得写得蛮好的,对于学习轨迹数据挖掘具有一定的启发。这篇文章也是国际上对于无桩共享单车早期的一个研究,第一作者Jie Bao(抱歉,不知道中文名怎么写。。)发表了多篇单车轨迹数据挖掘的相关文章,论文的另一个合作者郑宇博士相信做数据挖掘和城市计算的朋友应该不会陌生。本文主要是论文的一个学习笔记,另外附带了一小部分的个人理解,仅供参考,欢迎拍砖。下...

2021-08-31 19:30:09 784

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除