weixin_47560863-CSDN博客

原创配置VS-Code Python环境

配置VS-Code Python环境外部库跳转内部跳转安装CoPilot外部库跳转Cmd + Shift + P输入并选择「Python: Select Interpreter 」输入venv文件夹路径内部跳转点击Extensions下载C/C++套件、下载Python套件安装CoPilot学生认证: https://dev.to/twizelissa/how-to-enable-github-copilot-for-free-as-student-4kal下载 Github

2023-05-04 11:46:59 136

原创 unitree_ros

build the package

2022-09-11 11:17:04 816

原创 matplotlib 画分割子图

matplotlib 画分割子图subplot 分割不对称不对称子图

2022-05-13 11:26:08 383

原创安装mujoco210

安装MuJoCo210 安装MuJoCo MuJoCo dm_control ubuntu

2022-05-08 17:06:02 523

原创 np.take_along_axis 多维数组的索引

代码a = np.arange(2*3*4)a = d.reshape([2,3,4])b = np.zeros([2,3,1]).astype('int)c = np.take_along_axis(a,b,-1)结果a.shape = (2, 3, 4)b.shape = (2, 3, 1)c,shape = (2, 3, 1)a = array([[ [ 0, 1, 2, 3], [ 4, 5, 6, 7], [ 8, 9, 10,

2022-04-08 17:27:19 1021

原创 linx make install

cmake, makefile.txt, make关系简介makefile.txt 架构cmake 简单示例

2022-03-25 01:31:00 714

原创 THE INFORMATION GEOMETRY OF UNSUPERVISED REINFORCEMENT LEARNING

核心贡献发现以最大化互信息的方法训练RL无法学到所有奖励函数的最优解 (无论z数量)发现以最大化互信息的方法预训练RL并以自然梯度的方法微调可以最小化regret以几何的方式刻画最大化互信息算法流程mutual information skill learning (MISL)max⁡z,θI(s;z)=max⁡p(z),θEp(s,z)[log⁡ρπθ(s∣z)−log⁡ρπθ(s)]=max⁡p(z)Ep(z)[DKL(ρ(s∣z)∣∣ρ(s))]\max_{z,\theta} I.

2022-03-21 21:34:04 146

原创 Reinforcement Learning and Control as Probabilistic Inference: Tutorial and Review

基本概念轨迹概率 (轨迹τ\tauτ出现的概率)p(τ)=p(s1)Πtp(at∣st)p(st+1∣st,at)p(\tau) = p(s_1)\Pi_tp(a_t|s_t)p(s_{t+1}|s_t,a_t)p(τ)=p(s1)Πtp(at∣st)p(st+1∣st,at)随机变量OOO (是因为最优决策而非不小心_{而非不小心}而非不小心选到动作a的概率)p(Ot∣st,at)=exp⁡(r(st,at))p(O_t|s_t,a_t) = \exp(r(s_t..

2022-03-14 22:35:24 627

原创配置smac环境

StarCraftII 4.10unzip SC2.4.10.zip # password is iagreetotheeuladownload SMAC Maps, and move it to ~/StarCraftII/Maps/.To use a stableid, copy stableid.json from https://github.com/Blizzard/s2client-proto.git to ~/StarCraftII/.echo $SHELLvim

2022-03-11 17:04:50 498

原创强化学习论文笔记 (2)

IMPALA参考网站: 1Curriculum Learning概述: 藉由拓扑式的课程设计(可视为数据集的选取)、提升模型效果与收敛速度并增强泛化能力相关工作continuation_method (没有理论收敛保证、但实际通常可用) : 欲优化参数集CCC、首先优化Cλ=0(θ)C_{\lambda=0}(\theta)Cλ=0(θ)、接着逐渐增加难度λ\lambdaλ到Cλ=1(θ)C_{\lambda=1}(\theta)Cλ=1(θ)，其间确保θ\thetaθ取值使得CλC_

2022-03-02 15:43:02 753

原创强化学习论文笔记 (1)

TRPO摘要: 找到更新参数的方法使得期望效用不减(策略梯度若学习率选择不好更新后可能效用更低)效用函数 η(π)=Es0,s1...(∑t=0∞γtR(st))\eta(\pi)=E_{s0,s1...}(\sum_{t=0}^\infty\gamma^tR(s_t))η(π)=Es0,s1...(∑t=0∞γtR(st))引理: η(π′)=η(π)+Es,a∼π′(∑t=0∞γtAπ(st,at))\eta(\pi')=\eta(\pi)+E_{s,a\sim\pi'}(\sum_{t=

2022-03-02 15:41:39 223

原创数值分析与算法 (2)

微分方程欧拉法前向欧拉: yn+1=yn+hf(xn,yn)y_{n+1} = y_n + hf(x_n, y_n)yn+1=yn+hf(xn,yn)后退欧拉: yn+1=yn+hf(xn+1,yn+1)y_{n+1} = y_n + hf(x_{n+1}, y_{n+1})yn+1=yn+hf(xn+1,yn+1)两步欧拉: yn+1=yn−1+2hf(xn,yn)y_{n+1} = y_{n-1} + 2hf(x_n, y_n)yn+1=yn−1+2hf(xn,yn)变

2022-03-02 15:37:19 2028

原创数值分析与算法 (1)

插值拉格朗日 :Ln(xi)=yi,i=0,1...nL_n(x_i) = y_i, i=0,1...nLn(xi)=yi,i=0,1...n ，其中LnL_nLn为≤n\leq n≤n次多项式解答Ln(x)=l0(x)⋅y0+l1(x)⋅y1+...+ln(x)⋅ynli(x)=w(x)w′(xi)⋅(x−xi)L_n(x) = l_0(x)\cdot y_0 + l_1(x)\cdot y_1 + ... + l_n(x)\cdot y_n \\l_i(x) = \frac{w(x

2022-03-02 15:36:32 543

原创数字图像处理

基础人眼与相机ISO : 大、对入射光的敏感性、放大噪声光圈大: 进光量大、景深小、背景模糊红眼: 视网膜是橘红色主观亮度是光强的对数函数数字图像图像坐标系逆时针转90度，就是常见的坐标系最近邻插值、双线性插值、双三次插值(16个顶点)D4D_4D4曼哈顿距离、D8D_8D8棋盘格距离(包含斜对角线)图像增强改善图像，以便于人的观看或自动的图像分析与识别灰度变换反色: s=1−rs= 1-rs=1−r幂函数: s=rγs = r^\gammas=rγ、 γ

2022-03-02 15:19:16 2845

原创计算机网络

概述因特网三要素: 设备、协议、服务设备: 主机端系统、链路、交换设备(路由器、交换机)协议: 报文的格式和次序、发送/接收报文以及其它事件所采取的动作网络边缘CS结构 : 服务器总是开机且有固定周知的IP地址、客户机动态IP地址P2P结构: 对等点地位相同(轮流当CS)、资源利用充分网络性能指标往返时间(RTT)：发送到接收时间(容易测量)时延传播时延Propagation = 距离 / 光速传输时延Transmission= (大小/带宽) * 跳数排队时延Que

2022-03-02 15:09:32 2355

原创 Reinforcement Learning an introduction (2)

函数逼近目标函数定义: 目标函数VEˉ(w)=∑sμ(s)[vπ(s)−v^(s,w)]2μ(s)=η(s)∑s′η(s′)\bar{VE}(w) = \sum_s \mu(s)[v_\pi(s) - \hat v(s,w)]^2 \\\mu(s) = \frac{\eta(s)}{\sum_{s'}\eta(s')}VEˉ(w)=s∑μ(s)[vπ(s)−v^(s,w)]2μ(s)=∑s′η(s′)η(s)其中η(s)\eta(s)η(s)定义为状态sss出现的概率、最小化损失

2022-03-02 15:01:22 417

原创 Reinforcement Learning an introduction (1)

基础知识马可夫性质数学解释:P(st+1,rt+1∣st,at)=P(st+1,rt+1∣s0,a0,s1,a1,...,st,at)P(s_{t+1},r_{t+1}|s_t,a_t) = P(s_{t+1},r_{t+1}|s_0,a_0,s_1,a_1,...,s_t,a_t)P(st+1,rt+1∣st,at)=P(st+1,rt+1∣s0,a0,s1,a1,...,st,at)理解: 下个状态只取决于当前状态与动作，与历史无关当环境不满足马可夫性质

2022-03-02 14:57:11 483

原创 env.render()报错

执行env.render()时报错pyglet.canvas.xlib.NoSuchDisplayException: Cannot connect to “None”将运行指令改为xvfb-run -s "-screen 0 1400x900x24" xxx.py

2022-02-28 17:31:50 1039

原创 Latex trick

Overleaf 中文编辑正常情况下overleaf中输入中文按recompile无法显示，解决方法如下:点击menu->Setting//Compiler 选择 XeLaTex添加代码\usepackage{ctex}title觉得title太占地方，可添加代码\title{Alphafold2\vspace{-2cm}}\author{}\date{}其中{}代表醭显示响应内容，\vspace{-2cm}代表压缩标题到第一行的间距...

2022-02-27 13:14:27 221

原创 gym wrapper

import gymclass myWrapper(gym.Wrapper): def __init__(self, env): gym.Wrapper.__init__(self, env) def reset(self, addition=None, **kwargs): obs_n = self.env.reset(**kwargs) return obs_n def step(self, actions):

2022-02-25 11:54:54 269

原创创建虚拟环境

# 安装pip install virtualenv# 创建名为test的虚拟环境virtualenv testpython3 -m test# 激活环境source test/bin/activate# 退出虚拟环境deactivate

2022-02-25 10:36:51 728

原创 cv2射影变换

效果图变换前变换后代码import cv2import numpy as npimg = cv2.imread('img.jpg')h,w,c = img.shape # 480, 640, 3# 依序是左上、右上、右下、左下 (顺序不重要)before = np.array([[110,240],[532,240],[637,464],[3,464]], dtype='float32')after = np.array([[0,0],[w-1,0],[w-1,h-1],[

2022-02-23 14:19:14 2173

原创打印模型参数

打印模型参数总数打印模型第一层bias的第一个参数内容nn modulenamed_parametersnumel

2022-02-22 22:35:05 537

原创已知一棵有n个节点的树，其叶子节点个数为x，求该树对应二叉树中无右孩子结点个数

Ans: n-x+1证明:n个节点的树，有n-1个边由于叶子节点个数为x，此树有n-x个非叶结点每个非叶结点有且仅有一个长子，对应二叉树有n-x左向边右向边 = 总边数 - 左向边 = (n-1) - (n-x) = x-1总共有n个点,其中只有x-1个点有右孩子，剩下的n-x+1个点没有右孩子(即证)...

2021-01-07 12:26:50 1835 1

weixin_47560863的博客