IEEEagent RL
码龄3年
  • 46,983
    被访问
  • 54
    原创
  • 15,057
    排名
  • 401
    粉丝
关注
提问 私信

个人简介:电气建模,985博士,代码相关欢迎私信和留言。

  • 加入CSDN时间: 2019-10-20
博客简介:

weixin_45776027的博客

查看详细资料
  • 3
    领奖
    总分 487 当月 6
个人成就
  • 获得395次点赞
  • 内容获得63次评论
  • 获得774次收藏
创作历程
  • 9篇
    2022年
  • 18篇
    2021年
  • 29篇
    2020年
成就勋章
TA的专栏
  • Matlab建模
    9篇
  • 笔记
    22篇
  • python
    29篇
兴趣领域 设置
  • 人工智能
    opencv计算机视觉机器学习深度学习神经网络图像处理数据分析
  • 嵌入式
    单片机
  • 硬件开发
    dsp开发arm开发
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

基于Matlab/simulink的模块化多电平变流系统MMC

基于Matlab/simulink的模块化多电平变流系统MMC
原创
发布博客 2022.05.05 ·
42 阅读 ·
0 点赞 ·
0 评论

基于Matlab/simulink的风电永磁直驱并网+MPPT+低电压穿越控制

基于Matlab/simulink的风电永磁直驱并网+MPPT+低电压穿越控制
原创
发布博客 2022.05.05 ·
169 阅读 ·
0 点赞 ·
0 评论

基于Matlab/simulink的VSG虚拟同步机控制

VSG虚拟同步机控制
原创
发布博客 2022.05.05 ·
165 阅读 ·
1 点赞 ·
0 评论

基于Matlab/simulink的光伏发电+蓄电池+用户侧负载+三相交流微电网一体化系统

基于Matlab/simulink的光伏发电+蓄电池+用户侧负载+三相交流微电网一体化系统光伏发电+蓄电池+用户侧负载+三相交流微电网一体化系统AC/DC/DC/AC/AC/AC光伏板发电,电能经DCDC馈入直流并网,电池同时经DCDC变换器馈入直流并网,再经DC/AC变流器-传输至并网用户负载-交流线路电网中。感谢一键三连!代码问题欢迎留言和私信~原创: IEEEagent RL/拉普拉斯小电工...
原创
发布博客 2022.05.05 ·
52 阅读 ·
0 点赞 ·
0 评论

基于Matlab/simulink的2MW双馈风电+蓄电池+交流并网系统

基于Matlab/simulink的2MW双馈风电+蓄电池+交流并网系统
原创
发布博客 2022.05.05 ·
51 阅读 ·
0 点赞 ·
0 评论

基于Matlab/simulink的双馈风力发电并网系统

基于Matlab/simulink的双馈风力发电并网系统
原创
发布博客 2022.05.05 ·
50 阅读 ·
0 点赞 ·
0 评论

基于Matlab/simulink的永磁同步电机矢量控制系统

PMSM矢量控制
原创
发布博客 2022.05.05 ·
55 阅读 ·
0 点赞 ·
0 评论

基于Matlab/simulink的风力永磁直驱并网发电系统

基于Matlab/simulink的风力永磁直驱发电系统
原创
发布博客 2022.05.05 ·
49 阅读 ·
0 点赞 ·
0 评论

基于Matlab/simulink的风光储微电网一体化协调系统

基于Matlab/simulink的风光储微网一体化协调系统永磁直驱风机发电,采用基于扰动观测法的最大功率跟踪控制,经AC/DC整流器,将电能回馈至直流并网;太阳能光伏发电,采用基于扰动观测法的最大功率跟踪控制,经AC/DC整流器,将电能回馈至直流并网;锂离子电池和超级电容经双向DC/DC变换器(BDC)并入直流微网,目的在于稳定直流电压,回收多余再生回馈能量;直流并网经DC/AC逆变器-滤波环节-信号测量环节回馈至交流线路网络,负载模拟用户侧负荷。实现风光储微网一体化稳定-协调控制。(1
原创
发布博客 2022.05.05 ·
198 阅读 ·
0 点赞 ·
0 评论

《控制论》读书笔记2019.9迟发

控制论、信息论、系统论读书笔记文章目录控制论、信息论、系统论读书笔记@[toc]一、控制论二、信息论三、系统论一、控制论可能性空间定义:事物发展的可能性与不确定性是由其内部矛盾决定的,人们根据自己的目的,改变条件,使得事物沿着可能性空间内某种方向发展,则形成了控制。条件:被控制的对象必须有多种可能性发展的过程,并且可以人为地在这些可能性发展过程中进行选择。共轭控制数学上将L−1ALL^{-1}ALL−1AL​​​称作A过程的共轭过程,通过LLL变换和L−1L^{-1}L−1​​将原来不
原创
发布博客 2021.08.10 ·
162 阅读 ·
1 点赞 ·
0 评论

RL: 几个扩展性很好的网络

目前主流网络是Q-network, AC框架Q-Net: DQN, DuelingQN, DoubleQN, D3QNAC: DDPG, TD3, PPO, SAC等基础网络如下,可扩展性很好:详情参考ElegantRLimport torchimport torch.nn as nnimport numpy as np#Q-Netclass Qnet(nn.Module): def __init__(self, mid_dim, state_dim, action_dim):
原创
发布博客 2021.08.08 ·
44 阅读 ·
0 点赞 ·
0 评论

RL: 一个可扩展性很好的环境

自定义强化学习环境可以在以下基础上建立,可扩展性很好定义环境:(打印环境信息,数据类型float32)获取环境信息,共7个量(str, int, int, int, int, bool, float)- > (env_name, state_dim, action_dim, action_max, max_step, if_discrete, target_return)每个episode后的环境重置,状态归一化import osimport numpy as npimport gym
原创
发布博客 2021.08.07 ·
86 阅读 ·
0 点赞 ·
0 评论

强化学习:策略梯度Policy-gradient

强化学习:策略梯度Policy-gradient这是一篇笔记文文章目录强化学习:策略梯度Policy-gradient1. value-based and policy-based2. 策略梯度Policy-gradient1. value-based and policy-basedvalue-based基于价值的RL,倾向于选择价值最大的状态或者动作;通过迭代计算最优值函数Q,并根据最优值函数改进策略。policy-base基于策略的RL,常分为随机策略与确定性策略;无需定义价值函数,
原创
发布博客 2021.05.30 ·
94 阅读 ·
0 点赞 ·
0 评论

强化学习中on-policy和off-policy的区别

on-policy(同策略)代表既定策略,off-policy(异策略)代表新策略在Sarsa中,更新Q函数时用的动作a由贪婪策略得出,那么下一回合也用的是这个动作a。sarsa中的两个a一定相同就是(同策略)on-policy。Qlearning中,动作A1由Qmax得到的,而下一回合的A2用贪婪策略得到(下一回合的Q是在Qmax基础上探索,如图1所示),这时的A1和A2就有可能不一样,就是(异策略)off-policy。...
原创
发布博客 2021.05.29 ·
455 阅读 ·
0 点赞 ·
0 评论

Deep Q-learning from Demonstrations DQFD笔记

这是一篇关于Deep Q-learning from Demonstrations DQFD的笔记文原文链接:DQFD一、主要问题:how to 加速agent的学习过程,避免前期的cold start一方面,搞控制的都知道,工业场景不可能让你直接验证算法性能,或者RL与工业环境直接的”试错交互“学习,一般都需要在软件上建立数值模型simulator作为模拟环境去和RL算法interat但是有的工业过程很难建立这类模型去解析求解,亦或者所建立的大多模型仅仅与现实环境近似而已(忽略了许多非线性变.
原创
发布博客 2021.05.27 ·
290 阅读 ·
0 点赞 ·
0 评论

A Theoretical Analysis of DQN

这是一篇笔记文。原文链接:Fan, Jianqing, et al. “A theoretical analysis of deep Q-learning.” Learning for Dynamics and Control. PMLR, 2020.这篇文章对于一个slight simplification DQN做了分析(Under mild assumptions)this paper 主要重点在于DQN的两个点:分别是experience replay and the target net
原创
发布博客 2021.05.26 ·
47 阅读 ·
0 点赞 ·
0 评论

RL强化学习笔记:OpenAI gym建立自己的探索环境

本文为个人学习笔记,方便个人查阅观看原文链接利用OPenAI gym建立自己的强化学习探索环境:首先,先定义一个简单的RL任务:如图所示:初始状态下的环境,机器人在左上角出发,去寻找右下角的电池,静态障碍:分别在10、19位置,动态障碍:有飞机和轮船,箭头表示它们可以移动到的位置,会随时间改变而改变。这里假设:它们的移动速度和机器人一样。飞机会沿着当前列上下来回移动,轮船则只在当前位置到左边两格的范围来回移动。移动范围:如箭头所示。假设每个训练episode中,机器人在每一个step都有四.
原创
发布博客 2021.05.24 ·
336 阅读 ·
0 点赞 ·
2 评论

笔记:机器学习的知识图谱(全)

原创
发布博客 2021.05.17 ·
104 阅读 ·
1 点赞 ·
0 评论

深度强化学习-深度确定性策略梯度(DDPG)笔记

一、简介DDPG在DQN的基础上即经验回放和双网络的方法来改进Actor-Critic难收敛的问题,这个算法就是是深度确定性策略梯度(Deep Deterministic Policy Gradient,以下简称DDPG)DQN是一种基于值的学习方式,要求给定离散动作集,但考虑到一些控制系统一般为多组的连续动作,基于值的学习方式容易陷入局部最优且易导致“维数灾难”,而DDPG基于策略本身更新Q值,可以处理连续动作空间。因此基于DDPG做一下控制算法研究。随机策略,在相同的策略,在同一个状态处,采用的动
原创
发布博客 2021.03.25 ·
1322 阅读 ·
0 点赞 ·
0 评论

RL强化学习笔记(三):函数近似

RL强化学习笔记(三):函数近似文章目录RL强化学习笔记(三):函数近似1. 函数近似方法1.1 随机梯度下降SGD1.2 半梯度下降1.3 带资格迹的半梯度下降2. 线性近似2.1 线性最小二乘策略评估2.1.1 线性最小二乘回合更新LSMC2.1.2 线性最小二乘时序差分更新LSTD2.1.3 线性最小二乘最优策略求解3. 函数近似的收敛性4. 深度强化学习-DQN4.1 经验回放4.2 目标网络4.3 双重深度Q网络DDQN1. 函数近似方法对于Model_base的数值迭代算法、Model_f
原创
发布博客 2021.02.26 ·
189 阅读 ·
3 点赞 ·
2 评论
加载更多