zheng_RL_0003
码龄5年
关注
提问 私信
  • 博客:17,874
    社区:1,040
    18,914
    总访问量
  • 62
    原创
  • 821,133
    排名
  • 6
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:吉林省
  • 加入CSDN时间: 2020-04-01
博客简介:

weixin_46724054的博客

查看详细资料
个人成就
  • 获得12次点赞
  • 内容获得4次评论
  • 获得26次收藏
  • 代码片获得240次分享
创作历程
  • 62篇
    2023年
成就勋章
TA的专栏
  • 代码随想录算法训练营第十期
    14篇
  • 论文阅读笔记
    2篇
兴趣领域 设置
  • 硬件开发
    arm开发
创作活动更多

HarmonyOS开发者社区有奖征文来啦!

用文字记录下您与HarmonyOS的故事。参与活动,还有机会赢奖,快来加入我们吧!

0人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

[原创]从model-based推导到model-free(到PG+general advantage estimation)

总结来说,价值迭代是在迭代迭代最优价值函数的时候就对所有的动作轨迹进行尝试,直接找到最准确的对于当前状态的最优价值函数。而策略迭代则是每一次用不太准确的最优价值函数去更新策略,一步一步的逼近真正的最优价值函数,从而得到最优策略。两者并没有本质的区别。关于q-learning比较有经典且代表性的算法就是DDQN。DDQN主要是学习一个Q网络,它的输入是当前状态和动作输出是从当前状态开始,采取动作a之后的每一步都是optimal action的情况下所获得的折扣回报的期望,这个也是q-value的意义。
原创
发布博客 2023.08.07 ·
428 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

[原创]常用的tmux命令汇总

tmux是一个强大的终端复用器,与screen类似,但提供了更多的功能和更好的用户体验。在tmux会话中,按下Ctrl-b,然后按c。这将在当前会话中创建一个新窗口。按下Ctrl-b,然后按d。这将分离当前会话,但会话仍在后台运行。按下Ctrl-b,然后按方向键(如上、下、左、右)。按下Ctrl-b,然后按n切换到下一个窗口。按下Ctrl-b,然后按p切换到上一个窗口。按下Ctrl-b,然后按%进行垂直分割。按下Ctrl-b,然后按"进行水平分割。按下Ctrl-b,然后按x。
原创
发布博客 2023.08.06 ·
727 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

[整合]无root权限的服务器上安装screen

命令行输入以下指令安装ncurses,这个是安装screen的前置依赖包。
原创
发布博客 2023.08.06 ·
1113 阅读 ·
8 点赞 ·
1 评论 ·
10 收藏

[原创]关于解决pytorch训练神经网络时显存一直增长的问题

[原创]关于解决pytorch训练神经网络时显存一直增长的问题。
原创
发布博客 2023.08.06 ·
3189 阅读 ·
1 点赞 ·
0 评论 ·
10 收藏

# 算法训练营第十期总结篇

一刷,总体过了一遍题型,熟悉了二叉树,回溯和动归这些经典算法的套路,后面几天因为考试所以刷的不是很熟练,之后考完试再捡一下,总体感觉难度还可以。
原创
发布博客 2023.04.30 ·
135 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

代码随想录算法训练营第60天 | (考试周)动态规划 LeetCode84.柱状图中最大的矩形

代码随想录算法训练营第60天 | (考试周)动态规划 LeetCode84.柱状图中最大的矩形。
原创
发布博客 2023.04.29 ·
110 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

代码随想录算法训练营第59天 | (考试周)动态规划 LeetCode503.下一个更大元素II ,42. 接雨水

代码随想录算法训练营第59天 | (考试周)动态规划 LeetCode503.下一个更大元素II ,42. 接雨水。
原创
发布博客 2023.04.29 ·
217 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

代码随想录算法训练营第58天 | (考试周)动态规划 LeetCode739. 每日温度,496.下一个更大元素 I

代码随想录算法训练营第58天 | (考试周)动态规划 LeetCode739. 每日温度,496.下一个更大元素 I。
原创
发布博客 2023.04.29 ·
107 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

代码随想录算法训练营第57天 | (考试周)动态规划 LeetCode647. 回文子串,516.最长回文子序列

代码随想录算法训练营第57天 | (考试周)动态规划 LeetCode647. 回文子串。
原创
发布博客 2023.04.25 ·
158 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

代码随想录算法训练营第56天 | (考试周)动态规划 LeetCode583. 两个字符串的删除操作,72. 编辑距离

代码随想录算法训练营第56天 | (考试周)动态规划 LeetCode583. 两个字符串的删除操作,72. 编辑距离。
原创
发布博客 2023.04.25 ·
101 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

代码随想录算法训练营第55天(54周日休息) | (考试周)动态规划 LeetCode392.判断子序列,115.不同的子序列,583. 两个字符串的删除操作

代码随想录算法训练营第55天(54周日休息) | (考试周)动态规划 LeetCode392.判断子序列,115.不同的子序列,583. 两个字符串的删除操作。
原创
发布博客 2023.04.22 ·
57 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

代码随想录算法训练营第53天 | (考试周)动态规划 LeetCode1143.最长公共子序列,1035.不相交的线,53. 最大子序和 动态规划

代码随想录算法训练营第53天 | (考试周)动态规划 LeetCode1143.最长公共子序列,1035.不相交的线,53. 最大子序和 动态规划。
原创
发布博客 2023.04.22 ·
88 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

代码随想录算法训练营第52天 | 动态规划 LeetCode300.最长递增子序列,674. 最长连续递增序列,718. 最长重复子数组

代码随想录算法训练营第52天 | (考试周)动态规划 LeetCode300.最长递增子序列,674. 最长连续递增序列,718. 最长重复子数组。
原创
发布博客 2023.04.22 ·
110 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

代码随想录算法训练营第51天 | 动态规划 LeetCode309.最佳买卖股票时机含冷冻期,714.买卖股票的最佳时机含手续费

代码随想录算法训练营第51天 | 动态规划 LeetCode309.最佳买卖股票时机含冷冻期,714.买卖股票的最佳时机含手续费。
原创
发布博客 2023.04.21 ·
82 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

代码随想录算法训练营第50天 | 动态规划 LeetCode123.买卖股票的最佳时机III,188.买卖股票的最佳时机IV

代码随想录算法训练营第50天 | 动态规划 LeetCode123.买卖股票的最佳时机III,188.买卖股票的最佳时机IV。
原创
发布博客 2023.04.19 ·
78 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

代码随想录算法训练营第49天 | 动态规划 LeetCode121. 买卖股票的最佳时机,122.买卖股票的最佳时机II

代码随想录算法训练营第49天 | 动态规划 LeetCode121. 买卖股票的最佳时机,122.买卖股票的最佳时机II。
原创
发布博客 2023.04.18 ·
114 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

代码随想录算法训练营第48天 | 动态规划 LeetCode198.打家劫舍,213.打家劫舍II,337.打家劫舍 III

代码随想录算法训练营第48天 | 动态规划 LeetCode198.打家劫舍,213.打家劫舍II,337.打家劫舍 III。
原创
发布博客 2023.04.17 ·
175 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

代码随想录算法训练营第46天 | 动态规划 完全背包 LeetCode139.单词拆分, 多重背包理论

@代码随想录算法训练营第46天 | 动态规划 完全背包 LeetCode139.单词拆分, 多重背包理论没想法。回溯和动规都可以做,但是回溯会超时,需要一个memory去进行剪枝。动规的话就是dp数组表示s[0]到s[j]这个字符串可以被拆分,它为true的条件显然是用一个i遍历0-j,然后dp[i]为true的同时i-j这个字符串也能在wordset里找到。注意这个必须先遍历背包再遍历物品,因为必须是有序的排列多重背包当作01背包来做
原创
发布博客 2023.04.16 ·
152 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

代码随想录算法训练营第45天 | 动态规划 完全背包 LeetCode70. 爬楼梯 (进阶),322. 零钱兑换,279.完全平方数

代码随想录算法训练营第45天 | 动态规划 完全背包 LeetCode70. 爬楼梯 (进阶),322. 零钱兑换,279.完全平方数。
原创
发布博客 2023.04.14 ·
344 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

代码随想录算法训练营第44天 | 动态规划 完全背包 LeetCode 518. 零钱兑换 II,377. 组合总和 Ⅳ

@代码随想录算法训练营第44天 | 动态规划 完全背包 LeetCode518. 零钱兑换 II,377. 组合总和 Ⅳ完全背包完全背包和01背包问题唯一不同的地方就是,每种物品有无限件。解题上的不同之处只在于遍历顺序,01背包需要从后往前遍历dp数组,但是完全背包需要从前往后,因为一个物体可以被放无数次。518. 零钱兑换 II第一遍读题思考完全背包加组合背包,组合背包的递推公式加上完全背包的遍历顺序。代码随想录解法思路一样。c++代码具体实现注意事项class Solution {
原创
发布博客 2023.04.13 ·
114 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多