我身后没尾巴-CSDN博客

原创 Datawhale 组队学习(Django网站开发) task02

遇到问题解决措施在宝塔换版本安装，与此同时选择编译安装。在宝塔创建成功网站，将路径更改到虚拟环境下一些启动以及设置Django的命令python manage.py runserver 启动页面python manage.py createsuperuser 创建超级管理员修改后台语言 zh-hans 改为中文编写前端文件<html> <head> <title>我的首页</title> </

2021-06-20 23:46:42 75

原创 2021-06-16

个人网站初学习Linux命令复习VScode安装插件Html界面Django 学习Linux命令复习之前有了解过Linux的基本操作命令，借此复习之前学的命令，简单列举一些：1.Ls指令 2.cd指令改变目录，切换当前的工作目录 .3. mkdir指令4.cp指令5.rm指令6.** date 指令**7.** ps-ef指令**8.Top指令VScode安装插件主要安装了 python、chinese、bs4、html、requests等Html界面依据tango

2021-06-16 23:53:28 74

原创初认回溯

回溯法解题套路简单理解回溯就是暴力循环求解，但是此暴力求解并不是简单的for循环，而是对决策树循环遍历，回溯有一定的框架，根据学习内容，写下框架以及找的例子以便自己往后复习。算法套路文章皆以labuladong的书为主，结合自身理解，以java语言复现。框架内容遇到问题，首先思考这三个问题：1.路径已经做出的选择；2.选择列表：当前可以做出的选择；3.结束条件，达到底层后，无法再做出选择的条件。其框架可以写为： List result = new ArrayList();

2021-04-12 12:14:08 66

原创强化学习(六)

KEYDDPG(Deep Deterministic Policy Gradient)：在连续控制领域经典的RL算法，是DQN在处理连续动作空间的一个扩充。具体地，从命名就可以看出，Deep是使用了神经网络；Deterministic 表示 DDPG 输出的是一个确定性的动作，可以用于连续动作的一个环境；Policy Gradient 代表的是它用到的是策略网络，并且每个 step 都会更新一次 policy 网络，也就是说它是一个单步更新的 policy 网络。其与DQN都有目标网络和经验回放的技巧，

2020-11-08 23:00:19 133

原创强化学习(五)

Keys1. reward shaping：在我们的agent与environment进行交互时，我们人为的设计一些reward，从而“指挥”agent，告诉其采取哪一个action是最优的，而这个reward并不是environment对应的reward，这样可以提高我们estimate Q-function时的准确性。2. ICM（intrinsic curiosity module）：其代表着curiosity driven这个技术中的增加新的reward function以后的reward

2020-11-05 23:21:01 794 1

原创强化学习(四)

Keywords1.DQN(Deep Q-Network)：基于深度学习的Q-learning算法，其结合了 Value Function Approximation（价值函数近似）与神经网络技术，并采用了目标网络（Target Network）和经历回放（Experience Replay）的方法进行网络的训练。2. State-value Function：本质是一种critic。其输入为actor某一时刻的state，对应的输出为一个标量，即当actor在对应的state时，预期的到过程结束时

2020-11-03 22:30:44 220

原创强化学习（三）

keyspolicy（策略）：每一个actor中会有对应的策略，这个策略决定了actor的行为。具体来说，Policy 就是给一个外界的输入，然后它会输出 actor 现在应该要执行的行为。一般地，我们将policy写成π 。Return（回报）：一个回合（Episode）或者试验（Trial）所得到的所有的reward的总和，也被人们称为Total reward。一般地，我们用 R 来表示它。Trajectory：一个试验中我们将environment 输出的s跟 actor 输出的行为

2020-10-29 20:03:09 494

原创强化学习（二）

keyword马尔可夫性质(Markov Property): 如果某一个过程未来的转移跟过去是无关，只由现在的状态决定，那么其满足马尔可夫性质。换句话说，一个状态的下一个状态只取决于它当前状态，而跟它当前状态之前的状态都没有关系。马尔可夫链(Markov Chain): 概率论和数理统计中具有马尔可夫性质（Markov property）且存在于离散的指数集（index set）和状态空间（state space）内的随机过程（stochastic process）。状态转移矩阵(State Tra

2020-10-23 21:57:02 370

原创强化学习基础认知

强化学习基础认知（第一次使用markdown）强化学习发展迅速原因原因有二：1. 算力（GPU、TPU）的提升，我们可以更快地做更多的 trial-and-error 的尝试来使得 Agent 在Environment里面获得很多信息，取得很大的Reward。2. 我们有了深度强化学习这样一个端到端的训练方法，可以把特征提取和价值估计或者决策一起优化，这样就可以得到一个更强的决策网络。强化学习的基本结构**强化学习是机器学习中的一个领域**，强调如何基于环境而行动，以取得最大化的预期利益。其

2020-10-20 20:54:52 415

weixin_45411464的博客