- 博客(49)
- 收藏
- 关注
原创 【强化学习】——04Model-Based RL
一是,算法收敛后的策略在初始状态下的期望回报二是,算法达到收敛结果需要的样本数量基于模型的算法得益于这个环境模型,Agent对真实环境中的样本量的需求往往会减少通常具备较低的样本复杂度,但由于环境模型不可能完全准确,因此其期望回报通常较低之前的Model-Free RL中,Agent只可以与环境进行交互如果环境模型已知,那么Agent可以与模型进行交互,基于模型来规划或决策这个模型的作用在于提供环境状态转移概率和预测生成的奖励,以产生或优化策略MPR状态转移函数Ps′∣sa奖励函数Rs。
2025-06-07 16:14:50
528
原创 【强化学习】——03 Model-Free RL之基于策略的强化学习
\quad\quad 基于价值的RL主要通过学习状态价值函数V(s)V(s)V(s)和动作价值函数Q(s,a)Q(s,a)Q(s,a)来做出动作决策\quad\quad 基于策略的RL则是通过对策略建模和优化,调整策略参数以最大化回报的期望值\quad\quad 基于策略的RL更适合于Agent具有连续的动作和需要随即策略的场景\quad\quad 通过梯度上升方法调整策略πθ\pi_\thetaπθ的参数θ\thetaθ,以最大化目标函数J(θ)J(\theta)J(θ)\quad\quad (1)策略
2025-06-07 11:45:29
909
原创 【强化学习】——03 Model-Free RL之基于价值的强化学习
动态规划算法是基于模型的算法,要求已知状态转移概率和奖励函数。但很多实际问题中环境可能是未知的,这就需要不基于模型的RL方法。
2025-06-05 20:05:43
1077
原创 【强化学习】——02动态规划
把复杂的问题分解为若干的子问题,通过求解这些子问题来得到原问题的解。:一个问题可以拆分成若干小问题,通过组合小问题的解可以得到原问题的最优解:一个问题中,子问题出现多次,并且子问题的解可以被储存起来重复利用DP求解MDP问题时,必须对环境完全已知,即知道状态转移概率和相应的奖励。
2025-06-05 09:26:22
1044
原创 【强化学习】——01 入门知识
如果在马尔可夫奖励过程的基础上引入Agent的动作,就得到了马尔可夫决策过程。表示:对不同状态转移概率与与之对应的奖励r相乘并求和,得到条件期望。(2)一个状态对越往后的时候的持久性影响越小,故引入折扣因子。红绿灯(红灯之后是黄、接着绿灯、黄灯,最后又红灯,表示由一个状态转移到该状态时,可以获得奖励的期望值。(4) 在马尔可夫过程的基础上增加奖励机制,便是。(2)具有马尔可夫性质的随机过程便是。(1)随机现象在某一时刻的状态。所有状态的价值组成了价值函数。(1)Agent处于某个状态。
2025-06-04 10:31:12
652
原创 【机器人动力学】——建模方法之Lagrangian法
与牛顿欧拉方法的本质不同是从能量的角度进行分析的,不需要考虑力和力矩方向。其中,最后一项代表了向0势能面的平移量,加不加对运算结果的影响不变。对于整个系统而言,动能是每个连杆动能的和。:能量对速度的微分,即动量。:能量对位置的微分,即力。
2025-03-23 15:39:02
742
原创 【机器人动力学】——建模方法之牛顿欧拉法
Fdtdmvcmv˙cNdtdIω:注意此处的I定义的frame,一般不希望其取在对地坐标系下,因为物体运动时,I是时变的,其微分很难算。一般,定义I时,会取转轴和原点在body frame的质心处,这样就可以保证物体运动时,CINCIω˙ω×CIω。
2025-03-23 11:44:09
1161
原创 【机器人动力学】——转动惯量
其含义相当于任意形状的刚体,都能找到一个旋转轴使其新转动惯量矩阵为实对称矩阵。:计算转动惯量的时候需要旋转轴。若已知两转轴之间的相对位移。
2025-03-23 11:05:43
815
原创 【机器人动力学】——加速度的定义与拆解
BAQ=ddtBVQ=limΔt→0BVQ(t+Δt)−BVQ(t)Δt{}^BA_Q = \frac{d}{dt}{}^BV_Q = \lim_{\Delta t \to 0} \frac{{}^B V_Q(t + \Delta t)-{}^B V_Q(t)}{\Delta t}BAQ=dtdBVQ=Δt→0limΔtBVQ(t+Δt)−BVQ(t)AΩ˙B=ddtAΩB=limΔt→0AΩB(t+Δt)−AΩB(t)Δt{}^A\dot{\Omega}_B = \frac{d}{dt}
2025-03-23 10:35:57
668
原创 【机器人动力学】——运动和受力的描述
BVQdtdBPQΔt→0limΔtBPQtΔt−BPQt3×1的向量若单位向量et相对于转轴ωe˙ω×e。
2025-03-20 10:46:35
759
原创 【机器人运动学】——刚体运动的描述
(3)对转动的frame当下的转轴,也可以利用ZYZ的方式进行拆解。当下的转轴:Euler angles (ZYX)→ 右乘联体。的转轴:FIxed angles (XYZ)→ 左乘基。(1)多次转动需要确定。,转动顺序不能互换。
2025-03-19 16:55:16
266
原创 【机器人运动学】——位姿的描述
旋转矩阵可以表示“两坐标系之间的相对姿态”,也可以用于“转换向量的坐标””,也可以理解成B坐标系三个轴的方向向量投影到A坐标系xyz三个轴。:用旋转矩阵R描述一个坐标系(相对于另一个坐标系)的姿态。:用向量P描述一个坐标系(相对于另一个坐标系)的位置。这里,中间推导仍然用的是“投影的定义”来解释。(2)姿态→微分→角速度→微分→角加速度。相对于世界坐标系坐标轴的姿态”来描述。(1)位置→微分→速度→微分→加速度。在世界坐标系下的位置”来描述。(1)平动:由“物体坐标系。(2)转动:由“物体坐标系。
2025-03-19 16:17:52
695
原创 【CFD仿真学习】——利用ANSYS实现仿鱼游动(二维运动)
参考Wu W C .An adaptive version of ghost-cell immersed boundary method for incompressible flows with complex stationary and moving boundaries[J].SCIENCE CHINA Physics,Mechanics & Astronomy, 2010.文章的内容,进行复现。
2025-02-28 16:17:12
804
原创 【飞行器原理学习】——2.机翼的升阻力原理
理想条件下,同一根管道的任意截面处,单位体积流体的动能K、势能E及压力能P之和是一个常数。P21ρv2ρghconst1对于飞机而言,最重要的推论为:P21ρv2const2。
2025-02-21 09:51:19
882
原创 【飞行器原理学习】——1. 机翼及机翼参数
飞机的各种机翼是飞机的通过铰链、钢索、液压等方式连接在机身上操纵面运动时,会改变机翼的弧度和形状,使流经的空气发生偏转,从而影响空气动力的大小。使飞机围绕着3轴运动。
2025-02-20 17:13:25
557
原创 【STM32F1】——9轴姿态传感器JY901与IIC通信
电压:3.3-5V量程:X/Z轴 ±180°, Y轴 ±90°通信方式:IIC、UART(默认9600波特率)型号区别:JY901S(带温补),JY901B(带气压)帧头格式:以角度输出为例,回传数据为11位。格式为:0x55 0x53 RollL RollH PitchL PitchH YawL YawH TL TH SUMJY901的IIC通信协议1)模块的IIC协议采用寄存器地址访问的方式。每个地址内的数据均为16位数据,寄存器地址和含义详见用户手册。2)JY901-IIC的写入。
2024-11-13 21:55:00
1391
1
原创 【STM32F1】——无线收发模块RF200与串口通信
电压:3.4-5.5V工作频率发射功率:100mW工作范围:1500m通信方式:UART(默认9600波特率)尺寸。
2024-11-13 11:24:08
1195
原创 【STM32F1】——无刷电机转速控制与TIM定时器
使用STM32F103C8T6的TIM2定时器生成PWM信号,通过按键调节占空比,控制电调驱动AMAX2004T电机以不同转速转动。
2024-11-12 21:39:19
1022
原创 【STM32F1】——舵机角度控制与TIM定时器
电压:4.8-6.0V操作角度:180°质量:5.8g信号周期:20ms脉冲宽度数字舵机/模拟舵机:数字舵机只需要发一次信号,模拟舵机需要持续发信号。
2024-11-10 01:11:58
944
原创 【STM32F1】——9轴姿态模块JY901与串口通信(下)
电压:3.3-5V量程:X/Z轴 ±180°, Y轴 ±90°通信方式:IIC、UART(默认9600波特率)型号区别:JY901S(带温补),JY901B(带气压)帧头格式:以角度输出为例,回传数据为11位。格式为:0x55 0x53 RollL RollH PitchL PitchH YawL YawH TL TH SUM为什么要用DMA:普通的数据接收方式,收发一个字节就处理一次中断请求。在处理复杂任务时或者大量收发数据时,频繁的中断开关显然会增加CPU的负担。什么是DMA。
2024-11-08 19:23:16
1173
原创 【STM32F1】——9轴姿态模块JY901与串口通信(上)
电压:3.3-5V量程:X/Z轴 ±180°, Y轴 ±90°通信方式:IIC、UART(默认9600波特率)型号区别:JY901S(带温补),JY901B(带气压)帧头格式:以角度输出为例,回传数据为11位。格式为:0x55 0x53 RollL RollH PitchL PitchH YawL YawH TL TH SUM。
2024-11-08 18:36:11
1412
原创 【机器鱼设计学习1】——机械结构设计
https://blog.csdn.net/qq_56462652/article/details/134883083
2024-09-25 15:57:29
226
原创 【PCB设计】——Altium Designer入门
9)覆铜TGM-工具-覆铜-覆铜管理器-来自新的多边形(板子外形)-NET-GND-顶层/底层-应用。工具-封装管理器-元件列表里检查一下有没有-没有移除后-浏览添加-接受更改-执行添加。4)设计-Update:执行变更,查看一下有没有报错(引脚没连上得改之类的)shift+ctrl+x:交叉选择模式(PCB和原理图的元件对应,查看方便)放置-圆弧-给板子四个角添加圆角(按ctrl可以无视栅格拖动)5)画PCB:Keep-Out-Layer。PCB形状:EOS-编辑-原点-设置原点。
2024-09-19 15:55:32
559
原创 【机器人建模和控制】读书笔记
x10x1∙x0,其实就是:1)x1轴向量在O0系下的坐标2)在x0轴上的投影3)坐标变换矩阵的R10的第一个元素。
2024-09-11 16:14:40
1513
原创 【机械原理学习】——《机械原理》(第二版)机构部分
高副、曲线轮廓、连续等速转动、变化半径设计凸轮机构时首先要根据工作要求确定从动件的运动规律,然后根据所确定的从动件运动规律设计凸轮的轮廓曲线。为了避免刚性冲击或强烈振动,可采用圆弧抛物线或其他曲线对从动件位移线图的两端点处进行修正。凸轮运动的位移、速度、加速度曲线图 - 刚性冲击、柔性冲击(加速度有限值突变)凸轮的运动规律:等速运动(低速、从动件质量较小)、等变速运动(中速、轻载的场合)、五次多项式运动(高速)、正弦运动(高速)从动件运动规律的选择盘型凸轮轮廓曲线的设计图解法和解析法。
2024-08-15 11:18:27
2953
1
原创 【Matlab】一些tricks总结
则可以利用xlim/ylim()函数设置视窗的坐标轴范围跟随运动中心变化,实现视窗动态调整。假设plot()函数画的对象运动中心是。
2024-05-16 08:39:27
212
原创 【现代控制理论笔记】——第六章:状态观测器
前述状态反馈配置极点的优越性,具有一个前提是状态全部是可以测量的,但实际并非如此,我们需要对系统状态进行重构,即观测器设计问题。其原理是:重新设计一个系统,用作为它的输入信号,使其输出信号x等价于原系统的状态x。z˙xFzGyHuMzNy一般,如果观测器输出等价于原系统状态x的称为;输出等价于原系统状态函数Kx的称为。
2024-01-09 23:57:43
12261
3
原创 【现代控制理论笔记】——第五章:能控、能观和传递函数
对于最小实现问题,先判断系统是否是严格真的,如果不是则用D换成严格真的;如果是,则判断是不是可简约的,如果是则化成不可简约的,如果不是,则写出能控标准型实现即为最小实现。
2024-01-09 15:22:33
6039
原创 【现代控制理论笔记】——第四章:能观性分析
xteAtx0∫0teAt−τBuτdτxteAtx0∫0teAt−τBuτdτ可以看出,当输入给定时,系统的运动特性完全取决于初始状态。那么如何在已知输入输出的前提下,得到初始状态x0x_0x0便是待解决的问题。对于一般情况,xteAt−t0xt0∫t0teAt−τBuτdτxteAt−t0xt0∫t0teA。
2024-01-08 21:30:19
1981
原创 【现代控制理论笔记】——第三章:状态反馈
对系统:x˙=Ax+Buy=Cx\dot x=Ax+Bu\\y=Cxx˙=Ax+Buy=Cx引入状态正反馈:u=Kx+vu=Kx+vu=Kx+v得到状态反馈系统:x˙=(A+BK)x+Bvy=Cx\dot{x}=(A+BK)x+Bv\\y=Cxx˙=(A+BK)x+Bvy=Cx框图:可以看出,状态反馈的引入改变了系统矩阵,但不改变能控性:通过状态反馈的引入,改变系统矩阵,使闭环极点定位于目标位置。系统是能控的。① 根据A求出原系统的特征多项式:det(sI−A)=a0+...+an−1sn−1+snde
2024-01-08 11:46:52
6539
原创 【现代控制理论笔记】——第二章:能控性分析
系统能控性研究的是能否通过输入来影响系统的状态:xteAtx0∫0teAt−τBuτdτxteAtx0∫0teAt−τBuτdτ可以看出定义对控制状态的描述。其文字描述:如果系统的每个状态变量的运动都可由输入来影响和控制,使得经有限时间区间由任意始点到达原点,就称系统是能控的。
2024-01-07 17:09:40
3124
1
原创 【现代控制理论笔记】——第一章:线性定常系统的表示方法及运动分析
主要阐述运动分析,分为连续系统和离散系统两类。运动分析涉及零输入、零状态及一般情况。注意求eAtL−1[(sI−A−1。
2024-01-04 11:36:19
2491
1
原创 【最优控制笔记】——4自适应动态规划3
值迭代通过先给定值函数V,策略迭代先给定控制率u两者原理上类似,都采用控制率u更新迭代,使V最终收敛的方式逼近最优性能指标。
2023-12-18 15:01:25
1888
1
原创 【最优控制笔记】——4自适应动态规划1
自适应动态规划(Adaptive Dynamic Programming)1.ADP基础1)简介Werbos提出,利用函数近似结构逼近动态规划方程中的性能指标函数和控制策略,以满足最优性原理,从而时间向前(Forward-in-time) 获得最优控制和最优性能指标函数。主要解决无限域最优控制问题(没有终点,即使有也需要运算无数次才能到起点):无限域最优控制问题的Bellman最优性原理表示为:HJB方程表示为:2)基本原理自适应动态规划整个结构包括三个部分,整个过程是自学习的。三部
2023-12-11 16:28:59
3262
6
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人