自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 ros2 component 节点不运行

发现即使PubFront8mResultNode的构造函数第一句是exit()也没有办法执行。注册节点的时完全不检查类是否存在。检查类名/大小写和声明的节点类完全一致。同理记得看看定义节点类的源文件是否调用了宏。

2024-03-20 15:40:58 256 1

原创 M系列芯片Mac安装jetson sdk manager

参看

2024-03-20 15:13:42 187

原创 Macos 自动化 AppleScript

文章目录AppleScript 语言打开applicationAppleScript 语言打开applicationon run {input, parameters} (* Your script goes here *) tell application "Terminal" reopen activate end tellend run

2021-12-09 16:11:30 693 2

原创 Lect6_Value_Function_Approximation

文章目录Value Funtion ApproximationIntroductionWhy need?Types of Value Function ApproximationWhich Funtion Approximator?Incremental MethodsValue Funtion Approx. by SGDLinear Funtion ApproximationIncremental Prediction AlgorithmsControl with Value Function Appr

2021-10-20 16:03:24 184

原创 Lect5_Model_free_Control

文章目录Model Free ControlOn-Policy Monte-Carlo ControlGeneralised Policy IterationMonte-Carlo Policy IterationPseudocodeMonte-Carlo ControlGLIE Monte-Carlo ControlOn-Policy Temporal-Difference LearningOn-Policy Control With SarsaSarsa(λ\lambdaλ)Forward View S

2021-10-12 22:53:38 128

原创 Lect4_MC_TD_Model_free_prediction

文章目录Model-Free PredictionMento-Carlo LearningMonte-Carlo Policy EvaluationFirst-Visit Monte-Carlo Policy EvaluationIncremental Mento-CarloTemporal-Difference LearningMC vs. TDUnified ViewDynamic Programming BackupMento-Carlo BackupTemporal-Difference Backu

2021-10-06 14:33:59 158

原创 Lect3_Dynamic_Programming

文章目录Planning by Dynamic ProgrammingIntroductionRequirements for DPDP used for planning in an MDPPolicy EvaluationIterative Policy EvaluationExamplePolicy IterationPolicy improvementValue IterationPrinciple of OptimalityDeterministic Value IterationA live d

2021-09-18 23:31:23 147

原创 Sparse_reward

文章目录Sparse RewardApproach1--Reward ShapingApproach2--CuriosityApproach3--Curriculum LearningApproach4--Hierarchical RLSparse Reward如果环境中真正的 reward 非常 sparse,reinforcement learning 的问题就会变得非常的困难,但是人类可以在非常 sparse 的 reward 上面去学习。我们的人生通常多数的时候,我们就只是活在那里,都没有得到什

2021-09-18 10:09:26 103

原创 Proximal_Policy_Optimization

文章目录Proximal Policy Optimization什么是off-policy(异策略)on-policy缺点Importance Sampling(重要性采样)问题on-policy -> off-policyTRPO(Trust Region Policy Optimization)——PPO前身PPO(近端策略优化)PPO AlgorithmPPO-PenaltyPPO-ClipProximal Policy Optimization什么是off-policy(异策略)学习的a

2021-09-18 10:09:13 90

原创 Policy_Gradient

文章目录准备函数梯度下降/上升技巧Add a baseline or normalizationAdvantage FunctionAssign suitable credit代码执行过程梯度更新方法AdamRMSpropSGDMomentumAdaGrad准备函数把状态s和动作a串起来就得到了轨迹????Trajectory τ={s1,a1,s2,a2,...,st,at}Trajectory \ \tau = \{s_1, a_1, s_2, a_2, ..., s_t, a_t\

2021-09-18 10:08:51 71

原创 Imitation_Learning

文章目录Imitation LearningApproach1--Behavior CloningDataset Aggretion(DAgger)Approach2--Inverse RL or Inverse Optimal ControlConnection with GANImitation Learning别名:learning from demonstration(示范学习) ,apprenticeship learning(学徒学习),learning by watching(观察学习)

2021-09-17 18:36:52 120

原创 DQN_Continuous_Action

文章目录Q-learning for Continuous ActionsSolution1--sample actionSolution2--gradient ascendSolution3--design a networkSolution4--Don't use Q-learningQ-learning for Continuous ActionsQ:Q-learning相比于policy gradient based方法为什么训练起来效果更好,更平稳?A:只要能够 estimate 出Q-fu

2021-09-17 18:33:05 155

原创 DQN_advanced

文章目录DDQNDQN的问题:解决方法:DDQNDueling DQNFrameworkPrioritized Experience ReplayBalance between MC and TDNoisy NetDistributional Q-functionRainbowDDQNDQN的问题:Q-预估:训练时,每个状态都有一个预估的Q值,对多种不同的状态进行采样,求出Q值的平均值。Q-实际:有了策略之后真实的去玩很多次游戏,用reward求出实际的Q值,取平均。会发现预估的Q值往往比实际

2021-09-17 18:31:09 204

原创 DeepQN

文章目录DQNState Value Function定义State Value Function EstimationMC(Monte-Carlo)-basedTD(Temporal-difference)-basedState-action Value Function(Q-function)定义表示方法Policy ImprovementTip1: Target NetworkTip2: ExplorationEpsilon GreedyBoltzmann ExplorationTip3: Exper

2021-09-17 18:28:43 109

原创 DDPG

文章目录DDPG(Deep Deterministic Policy Gradient)离散动作 v.s. 连续动作随机策略 v.s. 确定性策略DDPGTrick: target network + Replay MemoryExploration v.s. ExploitationTwin Delayed DDPG(TD3) “双”“延迟”深度确定性策略网络DDPG(Deep Deterministic Policy Gradient)离散动作 v.s. 连续动作动作空间的可数性,很好理解。例如,

2021-09-17 18:25:07 1802

原创 Actor-Critic

文章目录Actor-CriticReview: Policy Gradient & Q-learningAdvantage Actor-Critic(A2C)tips for A2CAsynchronous Advantage Actor-Critic(A3C)Pathwise Derivative Policy GradientAlgorithmActor-Critic演员-评论家算法(Actor-Critic Algorithm)是一种结合policy based和value based的强

2021-09-17 18:19:44 398

原创 Lect2_MDPs

文章目录Markov Decision ProcessesMarkov ProcessesDefinitionMarkov PropertyState Transition MatrixMarkov Reward ProcessDefinitionReturnWhy discountValue FunctionBellman EquationMarkov Decision ProcessesDefinitionPolicyValue FunctionBellman Expectation EquationO

2021-09-17 18:13:06 110

原创 Lect1_Intro_RL

文章目录Introduction to Reinforcement LearningThe RL ProblemstateInside An RL AgentPolicyValue FunctionModelProblems within RLLearning and PlanningExploration and ExploitationPrediction and ControlIntroduction to Reinforcement LearningThe RL Problemstate

2021-09-17 17:45:46 86

原创 Reference

在书写这些笔记的过程中,完全是集百家之长,所有的参考部分在如下部分列出若侵权,请及时联系我删除,再次感谢以下资源生产者的奉献!github easyRL李宏毅-强化学习RL by David Silver

2021-09-17 17:28:53 72

原创 基于 M1的Ubuntu20.04环境下安装Flightmare详细步骤(初稿待完善

Ubuntu20.04环境下安装Flightmare详细步骤(初稿待完善)安装Flightmare+ROS新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入安装Flightmare+ROS你好! 这是你第一次使用 Mark

2021-03-31 17:40:38 1983 5

原创 Python学习笔记—— Soft shelled turtle

LESSONLESSON 7LESSON 7算术操作符+、-、*、/ 都和数学运算一样// 计算后的结果向下(floor)取整,但类型和更高级别的一样比如:10.0//8 结果为1.0** 次幂运算,前一个数为底,后一个数为次幂例如:8 ** 2 =64...

2020-05-24 17:01:37 1136

cs231a-course-note-pdf

cs231a第一节课的note

2024-03-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除