IEEEagent RL-CSDN博客

原创 RL强化学习笔记：OpenAI gym建立自己的探索环境

本文为个人学习笔记，方便个人查阅观看原文链接利用OPenAI gym建立自己的强化学习探索环境：首先，先定义一个简单的RL任务：如图所示：初始状态下的环境，机器人在左上角出发，去寻找右下角的电池，静态障碍：分别在10、19位置，动态障碍：有飞机和轮船，箭头表示它们可以移动到的位置，会随时间改变而改变。这里假设：它们的移动速度和机器人一样。飞机会沿着当前列上下来回移动，轮船则只在当前位置到左边两格的范围来回移动。移动范围：如箭头所示。假设每个训练episode中，机器人在每一个step都有四.

2021-05-24 19:50:48 886 2

原创深度强化学习-深度确定性策略梯度（DDPG）笔记

一、简介DDPG在DQN的基础上即经验回放和双网络的方法来改进Actor-Critic难收敛的问题，这个算法就是是深度确定性策略梯度(Deep Deterministic Policy Gradient，以下简称DDPG)DQN是一种基于值的学习方式，要求给定离散动作集，但考虑到一些控制系统一般为多组的连续动作，基于值的学习方式容易陷入局部最优且易导致“维数灾难”，而DDPG基于策略本身更新Q值，可以处理连续动作空间。因此基于DDPG做一下控制算法研究。随机策略，在相同的策略，在同一个状态处，采用的动

2021-03-25 19:19:06 3664 1

原创 RL强化学习笔记（三）：函数近似

RL强化学习笔记（三）：函数近似文章目录RL强化学习笔记（三）：函数近似1. 函数近似方法1.1 随机梯度下降SGD1.2 半梯度下降1.3 带资格迹的半梯度下降2. 线性近似2.1 线性最小二乘策略评估2.1.1 线性最小二乘回合更新LSMC2.1.2 线性最小二乘时序差分更新LSTD2.1.3 线性最小二乘最优策略求解3. 函数近似的收敛性4. 深度强化学习-DQN4.1 经验回放4.2 目标网络4.3 双重深度Q网络DDQN1. 函数近似方法对于Model_base的数值迭代算法、Model_f

2021-02-26 22:58:25 593 2

原创 Model_free RL强化学习笔记(二）

Model_free强化学习：附上实验室大佬的github学习笔记：点击进入《虎师兄带你入门强化学习》文章目录Model_free强化学习：1. 蒙特卡罗法1.1 ϵ−贪心策略1.2 求解控制问题下，在线蒙特卡罗法伪代码1.3 柔性策略的每次访问同侧回合更新算法伪代码1.4 不足2. 同策时序差分更新2.1 时序差分价值函数迭代式2.2 时序差分与蒙特卡罗方法对比2.3 n步时序差分2.4 步长选择2.5 伪代码3. SARSA算法3.1 算法流程3.2 期望SARSA算法4. 异策时序差分更新4.

2021-02-22 21:04:53 548 2

原创基于Matlab/simulink的模块化多电平变流系统MMC

基于Matlab/simulink的模块化多电平变流系统MMC

2022-05-05 13:11:08 462

原创基于Matlab/simulink的风电永磁直驱并网+MPPT+低电压穿越控制

基于Matlab/simulink的风电永磁直驱并网+MPPT+低电压穿越控制

2022-05-05 13:09:02 1452 6

原创基于Matlab/simulink的VSG虚拟同步机控制

VSG虚拟同步机控制

2022-05-05 13:06:54 2393 5

原创基于Matlab/simulink的光伏发电+蓄电池+用户侧负载+三相交流微电网一体化系统

基于Matlab/simulink的光伏发电+蓄电池+用户侧负载+三相交流微电网一体化系统光伏发电+蓄电池+用户侧负载+三相交流微电网一体化系统AC/DC/DC/AC/AC/AC光伏板发电，电能经DCDC馈入直流并网，电池同时经DCDC变换器馈入直流并网，再经DC/AC变流器-传输至并网用户负载-交流线路电网中。感谢一键三连！代码问题欢迎留言和私信~原创: IEEEagent RL/拉普拉斯小电工...

2022-05-05 13:04:47 946 3

原创基于Matlab/simulink的2MW双馈风电+蓄电池+交流并网系统

基于Matlab/simulink的2MW双馈风电+蓄电池+交流并网系统

2022-05-05 13:03:10 825 2

原创基于Matlab/simulink的双馈风力发电并网系统

基于Matlab/simulink的双馈风力发电并网系统

2022-05-05 13:00:23 1121 7

原创基于Matlab/simulink的永磁同步电机矢量控制系统

PMSM矢量控制

2022-05-05 12:56:23 675 2

原创基于Matlab/simulink的风力永磁直驱并网发电系统

基于Matlab/simulink的风力永磁直驱发电系统

2022-05-05 12:21:37 673 3

原创基于Matlab/simulink的风光储微电网一体化协调系统

基于Matlab/simulink的风光储微网一体化协调系统永磁直驱风机发电，采用基于扰动观测法的最大功率跟踪控制，经AC/DC整流器，将电能回馈至直流并网；太阳能光伏发电，采用基于扰动观测法的最大功率跟踪控制，经AC/DC整流器，将电能回馈至直流并网；锂离子电池和超级电容经双向DC/DC变换器（BDC）并入直流微网，目的在于稳定直流电压，回收多余再生回馈能量；直流并网经DC/AC逆变器-滤波环节-信号测量环节回馈至交流线路网络，负载模拟用户侧负荷。实现风光储微网一体化稳定-协调控制。(1

2022-05-05 12:07:41 2915 10

原创《控制论》读书笔记2019.9迟发

控制论、信息论、系统论读书笔记文章目录控制论、信息论、系统论读书笔记@[toc]一、控制论二、信息论三、系统论一、控制论可能性空间定义：事物发展的可能性与不确定性是由其内部矛盾决定的，人们根据自己的目的，改变条件，使得事物沿着可能性空间内某种方向发展，则形成了控制。条件：被控制的对象必须有多种可能性发展的过程，并且可以人为地在这些可能性发展过程中进行选择。共轭控制数学上将L−1ALL^{-1}ALL−1AL称作A过程的共轭过程，通过LLL变换和L−1L^{-1}L−1将原来不

2021-08-10 09:14:43 669

原创 RL: 几个扩展性很好的网络

目前主流网络是Q-network, AC框架Q-Net: DQN, DuelingQN, DoubleQN, D3QNAC: DDPG, TD3, PPO, SAC等基础网络如下，可扩展性很好：详情参考ElegantRLimport torchimport torch.nn as nnimport numpy as np#Q-Netclass Qnet(nn.Module): def __init__(self, mid_dim, state_dim, action_dim):

2021-08-08 16:05:47 286

原创 RL: 一个可扩展性很好的环境

自定义强化学习环境可以在以下基础上建立，可扩展性很好定义环境：（打印环境信息，数据类型float32）获取环境信息，共7个量（str, int, int, int, int, bool, float）- > (env_name, state_dim, action_dim, action_max, max_step, if_discrete, target_return)每个episode后的环境重置，状态归一化import osimport numpy as npimport gym

2021-08-07 20:32:48 578

原创强化学习：策略梯度Policy-gradient

强化学习：策略梯度Policy-gradient这是一篇笔记文文章目录强化学习：策略梯度Policy-gradient1. value-based and policy-based2. 策略梯度Policy-gradient1. value-based and policy-basedvalue-based基于价值的RL，倾向于选择价值最大的状态或者动作；通过迭代计算最优值函数Q，并根据最优值函数改进策略。policy-base基于策略的RL，常分为随机策略与确定性策略；无需定义价值函数，

2021-05-30 17:08:21 352

原创强化学习中on-policy和off-policy的区别

on-policy(同策略)代表既定策略，off-policy(异策略)代表新策略在Sarsa中，更新Q函数时用的动作a由贪婪策略得出，那么下一回合也用的是这个动作a。sarsa中的两个a一定相同就是（同策略）on-policy。Qlearning中，动作A1由Qmax得到的，而下一回合的A2用贪婪策略得到（下一回合的Q是在Qmax基础上探索，如图1所示），这时的A1和A2就有可能不一样，就是（异策略）off-policy。...

2021-05-29 22:08:23 1872

原创 Deep Q-learning from Demonstrations DQFD笔记

这是一篇关于Deep Q-learning from Demonstrations DQFD的笔记文原文链接：DQFD一、主要问题：how to 加速agent的学习过程，避免前期的cold start一方面，搞控制的都知道，工业场景不可能让你直接验证算法性能，或者RL与工业环境直接的”试错交互“学习，一般都需要在软件上建立数值模型simulator作为模拟环境去和RL算法interat但是有的工业过程很难建立这类模型去解析求解，亦或者所建立的大多模型仅仅与现实环境近似而已（忽略了许多非线性变.

2021-05-27 22:28:40 1509

原创 A Theoretical Analysis of DQN

这是一篇笔记文。原文链接：Fan, Jianqing, et al. “A theoretical analysis of deep Q-learning.” Learning for Dynamics and Control. PMLR, 2020.这篇文章对于一个slight simplification DQN做了分析（Under mild assumptions)this paper 主要重点在于DQN的两个点：分别是experience replay and the target net

2021-05-26 18:54:32 254

原创笔记：机器学习的知识图谱（全）

2021-05-17 17:55:43 920

转载转载：强化学习中Bellman最优性方程背后的数学原理？

一. Bellman最优贝尔曼方程在强化学习（RL）中无处不在，它是由美国应用数学家理查德·贝尔曼（Richard Bellman）提出，用于求解马尔可夫决策过程。贝尔曼最优性方程贝尔曼最优性方程是一个递归方程，对于Model_based环境可由动态规划（dynamic programming，DP）算法求解，可以通过求解该方程可以找到最优值函数和最优策略。对于任何有限的MDP，都存在一个最佳策略π*，满足其他所有可能的策略π都不会比这个策略更好。如果对于状态空间中的每个状态，使用π1派生..

2021-02-17 10:21:09 3622

原创《统计学习方法》读书笔记

《统计学习方法》读书笔记文章目录《统计学习方法》读书笔记1. 基于梯度的优化方法2. KKT条件：3. 线性最小二乘法（Moore-Penrose 伪逆求解）4. 机器学习任务总结5. 精确率、准确率、查准率（召回率）、ROC曲线、AUC值6. 防止过拟合的5种方法7. 熵、相对熵（KL散度）、交叉熵8. 最大似然估计9. 贝叶斯统计1. 基于梯度的优化方法（1）最速梯度下降（局部非全局），计算方向导数：minu,uTu=1uT∇xf(x)=minu,uTu=1∣∣u∣∣2∣∣∇xf(x)∣∣2co

2021-01-24 22:05:24 447

原创机器视觉：目标检测之yolov3代码复现(二)

Yolov3关于yolov3网络的详细结构、前向推导、反向传播等细节可以参考我的上一篇文章：https://blog.csdn.net/weixin_45776027/article/details/112854974一步一步地教你复现代码（Kears框架)首先看结构图：yolov3包含了三那个主要模块：1）集卷积、批归一化、Leakyrelu激活层为一体的DBL模块2）残差网络结构的resunit模块3）由填充+DBL+残差组成的resn_body模块---------------.

2021-01-20 20:58:04 640

原创深度学习之模型量化学习笔记

为什么要量化模型？模型部署时，往往考虑实际问题，算力、内存、带宽、速度、FPS、功耗、时延等等。特别是在移动端和嵌入式设备等资源受限的边缘侧应用场景中更加需要我们进行优化。什么是模型量化？模型量化: 即以较低的推理精度损失将连续取值（或者大量可能的离散取值）的浮点型模型权重或流经模型的张量数据定点近似（通常为int8）为有限多个（或较少的）离散值的过程，它是以更少位数的数据类型用于近似表示32位有限范围浮点型数据的过程模型的输入输出依然是浮点型，从而达到减少模型尺寸大小、减少模型内存消耗及加快模

2021-01-20 14:17:06 1590

原创 Resnet残差网络

为什么使用残差网络？深度学习中，随着网络层数的增加，容易导致：计算资源的过多消耗模型容易过拟合不恰当的激活函数导致梯度消失/梯度爆炸通过引入残差网络直接映射的加入，保证了L+1层网络，一定比L层网络包含更多的图像信息。残差块表示为：4. 残差：表示预测值与观测者之间的差距5. 误差：表示观测值与真实值之间的差距6. 预测值：表模型训练以后得到的输出值7. 观测值：表模型的输入，如模型测试时通过图像传感器输入的图像信息8. 真实值：人的肉眼所见的图像信息，无任何误差残差网络的

2021-01-20 13:02:44 326

原创机器视觉：目标检测之yolov3学习笔记（一）

yolov3学习笔记文章目录yolov3学习笔记1. Darknet-53网络2. YOLOV3结构3. 前向过程4. 反向过程（训练策略）5. 损失函数6. 网络模型结构1. Darknet-53网络Yolov3采用的darknet-53网络模型，此结构主要由75个卷积层构成，卷积层对于分析物体特征最为有效。由于没有使用全连接层，该网络可以通过strides实现对应任意大小的输入图像。结构如下：假设输入图像shape(416,416,3)backbone部分由Yolov2时期的Darknet-

2021-01-19 23:38:14 1579

转载 tensorflow1.0静态图保存pb模型

静态图保存pb模型：import tensorflow as tfimport osfrom tensorflow.python.framework import graph_util pb_file_path = os.getcwd() with tf.Session(graph=tf.Graph()) as sess: x = tf.placeholder(tf.int32, name='x') y = tf.placeholder(tf.int32, name='y') b = t

2020-12-23 09:20:56 356

原创手把手教你将AI模型做成一个手机APP并成功运行

系统环境：linux（我是用的Ubuntu)工具：Paddlelite、Android studio、Android studio tools、相关SDK、NDK、java开发环境jdk硬件：Android手机一部教程：下载并配置Android studio所需环境1.SDK环境：File>> setting >> Android sdk 和 Gradle.gradle一定放在当前目录下2. 代理环境与SDK配置172.0.0.1：80（本机ip）file>

2020-12-09 22:09:28 4535 1

原创基于rk3399pro的人工智能模型落地与服务器部署

目前在校学生，厌倦了研究中的仿真模型优化，想玩玩实际的项目目的：脱离MATLAB与电脑Python仿真环境，完成算法模型落地应用大致流程：数据获取–>模型搭建–>CPU训练模型–>模型转换–>嵌入式部署–>完成落地硬件需求：瑞芯微嵌入式开发板rk3399pro（搭载双核Cortex-A72及四核Cortex-A53组合架构处理器，四核GPU一块，以及最重要的NPU神经计算单元：内置算力3.0T）键盘、鼠标、电源USB摄像头一块有条件可以搭载RK1808算力棒

2020-12-05 10:56:10 2034 2

原创 Linux学习笔记1

2020-10-16 17:54:26 83

原创 keras学习笔记1

2020-10-16 17:05:19 112

原创 plt图如何显示中文

加入如下代码：plt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus'] = False效果如下：

2020-10-13 16:27:39 964

原创 Paddle框架下的图像边缘检测

#Paddle框架：图像边缘检测import matplotlib.pyplot as pltfrom PIL import Imageimport numpy as npimport paddleimport paddle.fluid as fluidfrom paddle.fluid.dygraph.nn import Conv2Dfrom paddle.fluid.initializer import NumpyArrayInitializerimg = Image.open('1

2020-10-09 21:52:59 686

原创 keras框架下的卷积神经网络分类练习

目标····掌握keras卷积网络相关API····掌握卷积网络的构建卷积网络简介：卷积神经网络由一个或多个卷积层、池化层以及全连接层等组成。与其他深度学习结构相比，卷积神经网络在图像等方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他浅层或深度神经网络，卷积神经网络需要考量的参数更少而经典卷积网络AlexNet模型与LexNet模型更为优秀，以后在做介绍。实践：使用keras内置数据集CIFAR100类别分类这个数据集有100种内别，做分类测试很好用用于构建

2020-09-13 12:22:31 541

原创 python训练一个简单的感知机用于手写数据集识别

import kerasfrom keras import layersimport matplotlib.pyplot as pltimport joblibimport keras.datasets.mnist as mnistimport pandas as pdimport numpy as np(train_image, train_label), (test_image, test_label) = mnist.load_data()#建立感知机model = keras.

2020-09-12 12:01:38 479

原创 python训练一个简单的回归模型保存并调用

import tensorflow as tfimport kerasimport numpy as npfrom keras import layersimport matplotlib.pyplot as pltimport joblibx = np.linspace(0, 100, 30)#主要用来创建等差数列,等差间隔为30y = 3*x+7+np.random.random(30)print(x)print(y)plt.scatter(x, y)model = ker

2020-09-12 11:58:45 1237

原创 Keras内置的几种评价函数

在Keras中，官方内置了几种评价函数。对于二分类问题，评价指标可以用 binary_accuracy，就是最直观上讲的准确率。当面对多分类或者多标签的任务时，评价度量可能会用到这两个 categorical_accuracy和 sparse_categorical_accuracy代码对比如下：def categorical_accuracy(y_true, y_pred): return K.cast(K.equal(K.argmax(y_true, axis=-1),

2020-08-29 12:23:29 1485

原创 Tensorflow实现简单的线性回归

1 准备好数据集：y = 0.8x + 0.7 100个样本2 建立线性模型随机初始化W1和b1y = W·X + b，目标：求出权重W和偏置b3 确定损失函数（预测值与真实值之间的误差）-均方误差4 梯度下降优化损失：需要指定学习率，一般为0-1最小值（超参数）import tensorflow as tfimport osdef linear_regression(): """ 自实现线性回归 :return: None """ # 1）准备好数

2020-08-29 11:41:07 142

原创 PyQt5在pyCharm中调用失败怎么办？this application failed to start because no QT platform plugin could be

使用PYQT5工具时：(具体如何添加PYQT5工具请参考这个博客：（超全）https://blog.csdn.net/hjwdz2015/article/details/104793872调用工具时出现以下错误：华丽的分割线----------------------------------------------------------------解决方法1：添加环境变量：华丽的分割线---------------------------------------------------

2020-08-12 17:54:26 955

RK3399pro_demo.rar

用于rk3399pro的手语数字识别，机器视觉检测，一个小DEMO 用于rk3399pro的手语数字识别，机器视觉检测，一个小DEMO用于rk3399pro的手语数字识别，机器视觉检测，一个小DEMO用于rk3399pro的手语数字识别，机器视觉检测，一个小DEMO用于rk3399pro的手语数字识别，机器视觉检测，一个小DEMO 用于rk3399pro的手语数字识别，机器视觉检测，一个小DEMO 用于rk3399pro的手语数字识别，机器视觉检测，一个小DEMO

2020-12-05