自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 Datawhale 组队学习(Django网站开发) task02

遇到问题解决措施在宝塔换版本安装,与此同时 选择编译安装。在宝塔创建成功网站,将路径更改到虚拟环境下一些启动以及设置Django的命令python manage.py runserver 启动页面python manage.py createsuperuser 创建超级管理员修改后台语言 zh-hans 改为中文编写 前端文件<html> <head> <title>我的首页</title> </

2021-06-20 23:46:42 62

原创 2021-06-16

个人网站初学习Linux命令复习VScode安装插件Html界面Django 学习Linux命令复习之前有了解过Linux的基本操作命令,借此复习之前学的命令,简单列举一些:1.Ls指令 2.cd指令改变目录,切换当前的工作目录 .3. mkdir指令4.cp指令5.rm指令6.** date 指令**7.** ps-ef指令**8.Top指令VScode安装插件主要安装了 python、chinese、bs4、html、requests等Html界面依据tango

2021-06-16 23:53:28 69

原创 初认回溯

回溯法解题套路简单理解回溯就是暴力循环求解,但是此暴力求解并不是简单的for循环,而是对决策树循环遍历,回溯有一定的框架,根据学习内容,写下框架以及找的例子以便自己往后复习。算法套路文章皆以labuladong的书为主,结合自身理解,以java语言复现。框架内容遇到问题,首先思考这三个问题:1.路径已经做出的选择;2.选择列表:当前可以做出的选择;3.结束条件,达到底层后,无法再做出选择的条件。其框架可以写为: List result = new ArrayList();

2021-04-12 12:14:08 62

原创 强化学习(六)

KEYDDPG(Deep Deterministic Policy Gradient): 在连续控制领域经典的RL算法,是DQN在处理连续动作空间的一个扩充。具体地,从命名就可以看出,Deep是使用了神经网络;Deterministic 表示 DDPG 输出的是一个确定性的动作,可以用于连续动作的一个环境;Policy Gradient 代表的是它用到的是策略网络,并且每个 step 都会更新一次 policy 网络,也就是说它是一个单步更新的 policy 网络。其与DQN都有目标网络和经验回放的技巧,

2020-11-08 23:00:19 123

原创 强化学习(五)

Keys1. reward shaping: 在我们的agent与environment进行交互时,我们人为的设计一些reward,从而“指挥”agent,告诉其采取哪一个action是最优的,而这个reward并不是environment对应的reward,这样可以提高我们estimate Q-function时的准确性。2. ICM(intrinsic curiosity module): 其代表着curiosity driven这个技术中的增加新的reward function以后的reward

2020-11-05 23:21:01 763 1

原创 强化学习(四)

Keywords1.DQN(Deep Q-Network): 基于深度学习的Q-learning算法,其结合了 Value Function Approximation(价值函数近似)与神经网络技术,并采用了目标网络(Target Network)和经历回放(Experience Replay)的方法进行网络的训练。2. State-value Function: 本质是一种critic。其输入为actor某一时刻的state,对应的输出为一个标量,即当actor在对应的state时,预期的到过程结束时

2020-11-03 22:30:44 205

原创 强化学习(三)

keyspolicy(策略): 每一个actor中会有对应的策略,这个策略决定了actor的行为。具体来说,Policy 就是给一个外界的输入,然后它会输出 actor 现在应该要执行的行为。一般地,我们将policy写成π 。Return(回报): 一个回合(Episode)或者试验(Trial)所得到的所有的reward的总和,也被人们称为Total reward。一般地,我们用 R 来表示它。Trajectory: 一个试验中我们将environment 输出的s跟 actor 输出的行为

2020-10-29 20:03:09 481

原创 强化学习(二)

keyword马尔可夫性质(Markov Property): 如果某一个过程未来的转移跟过去是无关,只由现在的状态决定,那么其满足马尔可夫性质。换句话说,一个状态的下一个状态只取决于它当前状态,而跟它当前状态之前的状态都没有关系。马尔可夫链(Markov Chain): 概率论和数理统计中具有马尔可夫性质(Markov property)且存在于离散的指数集(index set)和状态空间(state space)内的随机过程(stochastic process)。状态转移矩阵(State Tra

2020-10-23 21:57:02 340

原创 强化学习基础认知

强化学习基础认知(第一次使用markdown)强化学习发展迅速原因原因有二:1. 算力(GPU、TPU)的提升,我们可以更快地做更多的 trial-and-error 的尝试来使得 Agent 在Environment里面获得很多信息,取得很大的Reward。2. 我们有了深度强化学习这样一个端到端的训练方法,可以把特征提取和价值估计或者决策一起优化,这样就可以得到一个更强的决策网络。强化学习的基本结构**强化学习是机器学习中的一个领域**,强调如何基于环境而行动,以取得最大化的预期利益。其

2020-10-20 20:54:52 394

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除