【强化学习】TPO算法 对于Actor-Critic,基于策略梯度的神经网络每次将网络参数沿着梯度前进,这样步长可能会比较大,可能会带来网络性能的骤降。对于此问题,TPO在每次更新网络参数时提出一块信任区域,即限制一个网络参数的更新范围,在这个范围内更新参数是安全的。
【强化学习】Actor-Critic算法 在基于值函数和基于策略的方法,都是通过神经网络学习一个值(Q值或策略)的方法。Actor-Critic则是同时学习两个值的方法,其基于Critic网络学习Q值/V值,再将学习到的Q值/V值应用于Actor网络,Actor网络用于学习策略函数。
【强化学习】策略梯度算法 基于策略的方法则是存在一个显式的目标策略(使该策略下的动作价值函数期望最大),通过神经网络从每次和环境交互的数据中不断逼近该策略,即神经网络是对策略进行建模,输入是状态,输出是动作的概率分布。Q-learning、DQN都是基于动作价值函数的更新来推导最优策略的,即每次更新并不存在一个显示的策略,这个策略是随着Q值的更新而更新的,这是基于价值的方法。
【强化学习】DQN算法 但是在每次训练Q网络中,时序差分估算的Qtd值和Qw值同步更新,这会让Q网络不稳定。因此,DQN维护两个网络,一个网络用于计算Qw值,一个网络用于计算Qtd值。Qw网络每次训练值更新w参数不会更新Qtd值,每N次训练后都会从另一个网络(目标网络)复制Qtd值;,将每次从环境中采样得到的四元组数据(状态、动作、奖励、下一状态)存储到回放缓冲区中,训练 Q 网络的时候再从回放缓冲区中随机采样若干数据来进行训练。Q-learning算法根据时序差分来推导下一轮的Q值,这是基于状态和动作都是离散的、有限的;
低轨卫星星座网络构型、类别、特点概述 基本术语:1. 轨道平面倾角:轨道平面与赤道平面形成的夹角2. 升交点:轨道平面上,卫星由南向北运动与赤道平面相交的点3. 轨道间夹角:两个轨道平面升交点与地球中心的夹角4. 星间链路:ISL,卫星与卫星之间的链路。
【quic-go】Multipath QUIC项目安装指南(Windows) 1. 项目介绍网站:Multipath QUIC2. 参考论文:https://multipath-quic.org/conext17-deconinck.pdf3. 官方安装参考教程:CoNEXT 2017 Artifacts Available4. Github mp-quic源码:GitHub - qdeconinck/mp-quic: Please read https://multipath-quic.org/2017/12/09/artifacts-available.html to figur
【quic-go】quic-go源码目录结构详解 也就是说在其他.go文件,可以通过import "github.com/quic-go/quic-go"来调用stream.go中定义的方法。: 在./quic-go目录下有一个go.mod文件,这个文件定义了./quic-go下所有包所属的模块名称,这个名称在go.mod文件中的第一行。: 在./quic-go目录下还有许多.go文件,如stream.go,frame.go等。quic-go的源码目录如下,在./quic-go下有多个文件夹和.go文件组成了quic-go的整体库。
【Go语言】quic-go实现0-RTT传输 在客户端的tls文件中缓存第一次连接留下来的会话票据,在第二次连接中就可以实现0-RTT。为此,重要的是实现tls.Config.ClientSessionCache这个接口的具体结构体。:主要实现了tls.Config.ClientSenssionCache的具体结构体。这个模块主要用于实现客户端和服务器的tls配置。:进行三次连接,后面两次连接实现了0-RTT。
QUIC握手加密过程详解 证书链的作用是可以通过逐级验证上一级证书的有效性来证明实体证书的有效性,例如可以用上一级证书的公钥来验证下一级证书的数字签名是否正确,如果正确的话那么说明下一级证书是被上一级证书认可的。服务器使用客户端的临时公钥和自己的临时私钥生成一个共享秘钥材料,并通过客户端发来的随机数、服务器随机数和这个共享密钥生成主密钥。3. 客户端收到服务器的Initial Packet后通过自己的证书池验证对方的证书链,并从实体证书中获取服务器的公钥。每个证书都包含一个公钥和数字签名,证书是用来证明这个公钥是有效的、可信的。
Windows更新curl版本使支持http3 curl是一个利用 URL 语法在命令行方式下工作的文件传输工具,它支持多种协议,如 HTTP、HTTPS、FTP、FTPS、SCP、SFTP、TFTP、DICT、TELNET、LDAP、LDAPS、FILE、SMTP、POP3、IMAP、SMTPS 等。curl能够通过url进行数据上传或下载,是网络编程和调试中常用的工具之一。
【Github(3)】重命名远程分支 git push origin --delete old_branch //删除远程仓库上的old_branch。git push -u origin new_branch //将本地内容推送到远程new_branch分支上。git checkout -b new_branch //创建一个新的分支new_branch并切换到该分支。git checkout old_branch //切换到old_branch。
【Github(1)】windows安装及配置github 2. 打开终端( 快捷键win+R),输入下面的命令配置github。在这里假设我在github上注册的用户名为user_name,邮箱为user_email。在下面的命令中根据自己注册的内容进行替换。注意在该文章的第四步中,需要勾选“(NEW!) Add a Git Bash Profile to Windows Terminal”1. 首先找到github网站,注册一个git的账号,记住你的账户的邮箱。2. 克隆仓库到本地、修改和推送本地仓库到远程。
Zotero 同步OneDrive 删除该目录下的storage文件,以管理员打开cmd,输入命令mklink /J "C:\Users\PC\Zotero\storage" "D:\OneDrive - smail.nju.edu.cn\Zotero\storage”,该设备上的Zotero文件存储已与OneDrive网盘同步。4. 进入D:\Onedrive\OneDrive - smail.nju.edu.cn\Zotero,将剪贴好的文件夹粘贴到该目录下。至此该设备的下存储Zotero文件的目录已与OneDrive的指定目录同步。