Ricky050-CSDN博客

原创 ros2 component 节点不运行

发现即使PubFront8mResultNode的构造函数第一句是exit()也没有办法执行。注册节点的时完全不检查类是否存在。检查类名/大小写和声明的节点类完全一致。同理记得看看定义节点类的源文件是否调用了宏。

2024-03-20 15:40:58 256 1

原创 M系列芯片Mac安装jetson sdk manager

参看

2024-03-20 15:13:42 187

原创 Macos 自动化 AppleScript

文章目录AppleScript 语言打开applicationAppleScript 语言打开applicationon run {input, parameters} (* Your script goes here *) tell application "Terminal" reopen activate end tellend run

2021-12-09 16:11:30 693 2

原创 Lect6_Value_Function_Approximation

文章目录Value Funtion ApproximationIntroductionWhy need?Types of Value Function ApproximationWhich Funtion Approximator?Incremental MethodsValue Funtion Approx. by SGDLinear Funtion ApproximationIncremental Prediction AlgorithmsControl with Value Function Appr

2021-10-20 16:03:24 184

原创 Lect5_Model_free_Control

文章目录Model Free ControlOn-Policy Monte-Carlo ControlGeneralised Policy IterationMonte-Carlo Policy IterationPseudocodeMonte-Carlo ControlGLIE Monte-Carlo ControlOn-Policy Temporal-Difference LearningOn-Policy Control With SarsaSarsa(λ\lambdaλ)Forward View S

2021-10-12 22:53:38 128

原创 Lect4_MC_TD_Model_free_prediction

文章目录Model-Free PredictionMento-Carlo LearningMonte-Carlo Policy EvaluationFirst-Visit Monte-Carlo Policy EvaluationIncremental Mento-CarloTemporal-Difference LearningMC vs. TDUnified ViewDynamic Programming BackupMento-Carlo BackupTemporal-Difference Backu

2021-10-06 14:33:59 158

原创 Lect3_Dynamic_Programming

文章目录Planning by Dynamic ProgrammingIntroductionRequirements for DPDP used for planning in an MDPPolicy EvaluationIterative Policy EvaluationExamplePolicy IterationPolicy improvementValue IterationPrinciple of OptimalityDeterministic Value IterationA live d

2021-09-18 23:31:23 147

原创 Sparse_reward

文章目录Sparse RewardApproach1--Reward ShapingApproach2--CuriosityApproach3--Curriculum LearningApproach4--Hierarchical RLSparse Reward如果环境中真正的 reward 非常 sparse，reinforcement learning 的问题就会变得非常的困难，但是人类可以在非常 sparse 的 reward 上面去学习。我们的人生通常多数的时候，我们就只是活在那里，都没有得到什

2021-09-18 10:09:26 103

原创 Proximal_Policy_Optimization

文章目录Proximal Policy Optimization什么是off-policy(异策略)on-policy缺点Importance Sampling(重要性采样)问题on-policy -> off-policyTRPO(Trust Region Policy Optimization)——PPO前身PPO(近端策略优化)PPO AlgorithmPPO-PenaltyPPO-ClipProximal Policy Optimization什么是off-policy(异策略)学习的a

2021-09-18 10:09:13 90

原创 Policy_Gradient

文章目录准备函数梯度下降/上升技巧Add a baseline or normalizationAdvantage FunctionAssign suitable credit代码执行过程梯度更新方法AdamRMSpropSGDMomentumAdaGrad准备函数把状态s和动作a串起来就得到了轨迹????Trajectory τ={s1,a1,s2,a2,...,st,at}Trajectory \ \tau = \{s_1, a_1, s_2, a_2, ..., s_t, a_t\

2021-09-18 10:08:51 71

原创 Imitation_Learning

文章目录Imitation LearningApproach1--Behavior CloningDataset Aggretion(DAgger)Approach2--Inverse RL or Inverse Optimal ControlConnection with GANImitation Learning别名：learning from demonstration(示范学习) ，apprenticeship learning(学徒学习)，learning by watching(观察学习)

2021-09-17 18:36:52 120

原创 DQN_Continuous_Action

文章目录Q-learning for Continuous ActionsSolution1--sample actionSolution2--gradient ascendSolution3--design a networkSolution4--Don't use Q-learningQ-learning for Continuous ActionsQ：Q-learning相比于policy gradient based方法为什么训练起来效果更好，更平稳？A：只要能够 estimate 出Q-fu

2021-09-17 18:33:05 155

原创 DQN_advanced

文章目录DDQNDQN的问题：解决方法：DDQNDueling DQNFrameworkPrioritized Experience ReplayBalance between MC and TDNoisy NetDistributional Q-functionRainbowDDQNDQN的问题：Q-预估：训练时，每个状态都有一个预估的Q值，对多种不同的状态进行采样，求出Q值的平均值。Q-实际：有了策略之后真实的去玩很多次游戏，用reward求出实际的Q值，取平均。会发现预估的Q值往往比实际

2021-09-17 18:31:09 204

原创 DeepQN

文章目录DQNState Value Function定义State Value Function EstimationMC(Monte-Carlo)-basedTD(Temporal-difference)-basedState-action Value Function(Q-function)定义表示方法Policy ImprovementTip1: Target NetworkTip2: ExplorationEpsilon GreedyBoltzmann ExplorationTip3: Exper

2021-09-17 18:28:43 109

原创 DDPG

文章目录DDPG(Deep Deterministic Policy Gradient)离散动作 v.s. 连续动作随机策略 v.s. 确定性策略DDPGTrick: target network + Replay MemoryExploration v.s. ExploitationTwin Delayed DDPG(TD3) “双”“延迟”深度确定性策略网络DDPG(Deep Deterministic Policy Gradient)离散动作 v.s. 连续动作动作空间的可数性，很好理解。例如，

2021-09-17 18:25:07 1802

原创 Actor-Critic

文章目录Actor-CriticReview: Policy Gradient & Q-learningAdvantage Actor-Critic(A2C)tips for A2CAsynchronous Advantage Actor-Critic(A3C)Pathwise Derivative Policy GradientAlgorithmActor-Critic演员-评论家算法(Actor-Critic Algorithm)是一种结合policy based和value based的强

2021-09-17 18:19:44 398

原创 Lect2_MDPs

文章目录Markov Decision ProcessesMarkov ProcessesDefinitionMarkov PropertyState Transition MatrixMarkov Reward ProcessDefinitionReturnWhy discountValue FunctionBellman EquationMarkov Decision ProcessesDefinitionPolicyValue FunctionBellman Expectation EquationO

2021-09-17 18:13:06 110

原创 Lect1_Intro_RL

文章目录Introduction to Reinforcement LearningThe RL ProblemstateInside An RL AgentPolicyValue FunctionModelProblems within RLLearning and PlanningExploration and ExploitationPrediction and ControlIntroduction to Reinforcement LearningThe RL Problemstate

2021-09-17 17:45:46 86

原创 Reference

在书写这些笔记的过程中，完全是集百家之长，所有的参考部分在如下部分列出若侵权，请及时联系我删除，再次感谢以下资源生产者的奉献！github easyRL李宏毅-强化学习RL by David Silver

2021-09-17 17:28:53 72

原创基于 M1的Ubuntu20.04环境下安装Flightmare详细步骤（初稿待完善

Ubuntu20.04环境下安装Flightmare详细步骤（初稿待完善）安装Flightmare+ROS新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入安装Flightmare+ROS你好！这是你第一次使用 Mark

2021-03-31 17:40:38 1983 5

原创 Python学习笔记—— Soft shelled turtle

LESSONLESSON 7LESSON 7算术操作符+、-、*、/ 都和数学运算一样// 计算后的结果向下（floor）取整，但类型和更高级别的一样比如：10.0//8 结果为1.0** 次幂运算，前一个数为底，后一个数为次幂例如：8 ** 2 =64...

2020-05-24 17:01:37 1136

zzping01的博客