![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
知识笔记
文章平均质量分 72
邵政道
这个作者很懒,什么都没留下…
展开
-
【学习笔记】远程服务器常用指令
汇总最近学到的远程服务器使用指令。原创 2023-01-10 16:01:36 · 1788 阅读 · 0 评论 -
【深度学习知识点扫盲】病态、病态条件
【深度学习知识点扫盲】病态、病态条件原创 2020-09-22 09:11:10 · 4129 阅读 · 0 评论 -
【论文笔记】DRL safety专题经典论文6篇
文章目录引子AI safety in RL高维约束策略优化(CPO)DDPG+SafeLayer人为干预降低专家信息的质量来节约成本自动重置+及时早停总结引子论文来自spinning up Key Papers in Deep RL的safety专题,也就是深度强化学习的安全方面。论文主要是讨论AI Safety这个话题的。这里的Safety倒不是科幻电影里的那种大危机,读过下面的第一篇文章就会明白,这里的safety更像是让agent在具有极度“风险厌恶”情况下进行决策。本文只做简单概述,并且文章顺原创 2022-05-04 20:08:21 · 1496 阅读 · 0 评论 -
【课程总结】数据网络协议基础-第五章 路由算法
整理自中国科大李辉老师《数据网络理论基础》课程相关材料。只有部分要点摘录。方便复习回顾。文章目录通信网络的拓扑结构图论基础路由算法概论Floyed-Warshall 算法例题网络最大流、最小费用最大流算法用标号法求最大流算法步骤用标号法求最大流 例题Ford-Fulkerson 方法的缺点通信网络的拓扑结构网络拓扑的本质就是利用图论技术将网络抽象化,并且使其表现形式更形象化。实际网络中的终端设备、交换设备和工作站都被抽象为拓扑图中的节点;网络设备间的物理连接线被抽象为拓扑图中的边。常见的网原创 2022-04-18 20:27:18 · 2265 阅读 · 0 评论 -
【论文笔记】多智能体强化学习值分解基础论文5篇
IQL、COMA、VDN、QMIX、QTRAN算法大致思路梳理原创 2022-04-14 20:17:17 · 4097 阅读 · 0 评论 -
【论文笔记】RODE:为agent分配角色
文章目录引子模型结构介绍(a) 学习动作编码方式(b) 角色选择器表征(c ) 角色策略训练(d) 整体架构实验及消融实验总结引子论文标题:RODE: LEARNING ROLES TO DECOMPOSE MULTI-AGENT TASKS,ICLR2021。RODE的名字取自role的ro和decompose的de。论文链接:(ICLR 2021, https://arxiv.org/abs/2010.01523).代码链接:https://github.com/TonghanWang/RODE原创 2022-04-12 16:07:46 · 1410 阅读 · 0 评论 -
【论文笔记】MOBA类游戏中的强化学习论文5篇
文章目录引子论文列表用AI打星际争霸(RTS):Grandmaster level in StarCraft II using multi-agent reinforcement learning整体结构训练模型结构用AI打dota:Dota 2 with Large Scale Deep Reinforcement Learning, 2019整体模型网络结构值得一提的Surgery技术用AI打王者荣耀:Hierarchical Macro Strategy Model for MOBA Game AI,原创 2022-04-01 15:57:40 · 6115 阅读 · 3 评论 -
【论文笔记】AP聚类算法解读
简单介绍理解成本较高却异常好用的聚类算法。原创 2022-04-01 10:28:01 · 2182 阅读 · 0 评论 -
【论文笔记】非完美信息多智能体博弈棋牌类AI论文五篇
文章目录引子OpenHoldem: A Benchmark for Large-Scale Imperfect-Information Game Research,arxiv2020SuphX: Mastering Mahjong with deep einforcement learning. 2020RLCard: A Toolkit for Reinforcement Learning in Card GamesDouZero: Mastering DouDizhu with Self-Play De原创 2022-03-25 10:24:06 · 6031 阅读 · 0 评论 -
【论文笔记】AAAI2022论文精读-AlphaHoldem
修改自我组会报告,具体细节请读原文。文章目录引子背景介绍德州扑克规则论文贡献信息编码方式网络结构自博弈算法性能比较引子论文标题是:AlphaHoldem: High-Performance Artificial Intelligence for Heads-Up No-Limit Texas Hold’em from End-to-End Reinforcement Learning在写这篇文章的时候,论文还没有正式发布,我这里读的是预发布版本。我邮件联系了论文作者之一的兴军亮老师,他的回复是:原创 2022-03-23 17:08:06 · 3834 阅读 · 2 评论 -
【论文笔记】AAAI2022多智能体强化学习论文五篇
修改自我的组会报告ppt。文章目录引子Anytime Multi-Agent Path Finding via Machine Learning-Guided Large Neighborhood SearchMAPF-LNS2: Fast Repairing for Multi-Agent Path Finding via Large Neighborhood SearchScenic4RL: Programmatic Modeling and Generation of Real-time Strat原创 2022-03-17 14:36:04 · 5729 阅读 · 0 评论 -
【知识笔记】博弈论之 关联性均衡
考虑胆小鬼博弈的收益矩阵:当双方选择胆小(C)时总体收益达到最大。对于纳什均衡可以求出(设智能体1选择C的概率为p):当两个智能体选择“ C”的概率均为 0.75,并且选择"D" 的概率为 0.25 时,两个智能体达到了混合策略纳什均衡,其中每个智能体获得的期望效益价值为 4.5。两个智能体总效益之和为 9,小于所有两个智能体总效益之和的最大可能值 10。关联性均衡的目的就是通过设定某种规则,使得最后双方的策略接近于A点的策略。当两个智能体相关联并且设定每种情况的可能性为 v = [1/原创 2022-03-15 15:52:50 · 1204 阅读 · 0 评论 -
【论文笔记】ICLR2022 Oral Presentations 强化学习论文5篇
来自我的组会报告ppt。文章目录引子Provably Filtering Exogenous Distractors using Multistep Inverse DynamicsThe Information Geometry of Unsupervised Reinforcement LearningVision-Based Manipulators Need to Also See from Their HandsTransform2Act: Learning a Transform-and-Co原创 2022-03-11 14:22:08 · 4309 阅读 · 0 评论 -
【论文笔记】强化学习论文阅读-Model-Based RL 9篇
来自我的组会报告ppt文章目录引子a. Model is learnedImagination-Augmented Agents for Deep Reinforcement Learning, Weber et al, 2017. Algorithm: I2A.(deepmind)Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning, Nagabandi et al,原创 2022-03-09 20:50:20 · 3972 阅读 · 1 评论 -
【论文阅读】强化学习-Other Directions for Combining Policy-Learning and Q-Learning专题4篇
文章目录Combining Policy Gradient and Q-learning, O’Donoghue et al, 2016. Algorithm: PGQL.The Reactor: A Fast and Sample-Efficient Actor-Critic Agent for Reinforcement Learning, Gruslys et al, 2017. Algorithm: Reactor.Interpolated Policy Gradient: Merging On-P原创 2021-11-12 15:31:25 · 3089 阅读 · 0 评论 -
强化学习论文阅读-Policy Gradients with Action-Dependent Baselines 专题
修改自组会报告ppt。这种方法的基本思想就是,使用Action-Dependent Baseline来减小PG方法的方差。Baseline 是 policy gradient 类方法的一个重要的减小方差的手段。并且,baseline的引入并不会导致bias。在REINFORCE with baseline算法中,就引入了基准值b作为baseline。这一系列研究方向主要都是针对找到b的估计。最优的baseline理论上是存在的。出于practical的考虑,一般使用当前状态动作对的价值作bas原创 2021-11-11 08:54:35 · 782 阅读 · 0 评论 -
【论文阅读】强化学习-Transfer and Multitask RL专题8篇
文章目录引子 什么是Transfer and Multitask RLProgressive Neural Networks, Rusu et al, 2016. Algorithm: Progressive Networks.Universal Value Function Approximators, Schaul et al, 2015. Algorithm: UVFA.Reinforcement Learning with Unsupervised Auxiliary Tasks, Jaderber原创 2021-11-10 15:56:05 · 2281 阅读 · 0 评论 -
Q-learning++ DQN系列论文小梳理
基本以DQN和Rainbow为核心画的图。左边虚线框是DNN(DL,deeplearning)出现之前的强化学习算法和技巧。分别对应到DQN一家的特定算法。还有一些其他算法没有被rainbow采用的就单独画在了下面的虚线框里。...原创 2021-11-03 21:26:08 · 215 阅读 · 0 评论 -
《软件困局》内容摘抄
声明:内容摘抄时进行了部分二次创作自学的程序员会比较“傲慢” 最具挑战性的部分并不是修复问题,而是找到问题。 竞争中容易出现“比烂主义”只有两种程序设计语言,没有人使用的语言和令人抱怨的语言 “试图建造这样的高墙可能是徒劳的”在大学中完成的代码通常不需要他人维护、使用或测试。 作为程序员,不编写单元测试是不称职的 好的设计往往会与高性能的设计背道而驰我们应该忘记“小效率” 软件设计是抽象层的设计,简洁的设计少能留存下来 编写关于异常的程序何时选用哪一门语言没有明确指导,人们倾向于使用他们以前使原创 2021-10-24 20:53:45 · 187 阅读 · 0 评论 -
关于python list的几个小技巧
参考《Effective Python》,志在让python代码书写更高效。原创 2021-08-30 20:21:19 · 93 阅读 · 0 评论 -
胜者的诅咒与double DQN
最近在学习博弈论和DQN时,无意中发现胜者的诅咒和DQN中过估计现象相通。特此记录。文章目录胜者的诅咒DQNDouble DQN反思回顾胜者的诅咒分析这个问题,假设每一个参与拍卖的买家对硬币数量的估计相互独立,并且都愿意出与他估计价值相当的价格。在上图中,红线为物品的实际价值,左右分别为两次拍卖不同买家的出价。因为我们每次都使用“价高者得”的方式,所以最终成功拍走物品的“胜者”永远是心目中对物品估价越多的人。当买家数量较多时,几乎可以肯定,胜者一定是过高估计物品价值的人。(而且是过高估计得最离谱原创 2021-08-30 18:48:13 · 450 阅读 · 0 评论 -
关于C语言函数返回char *的踩坑记录(堆、栈)
今天在教学妹C语言的时候,重新写了一道题目,在没有任何准备的情况下,毫不意外地翻车了。翻车的点是关于函数返回char *类型时,并不能够如期得到期望的结果。文章目录发现问题分析问题解决问题结论发现问题题目:写一个函数fun,实现将整型数int转化成字符串char * 。要求使用函数递归。顺带一提,本文暂时认为这个整数是大于等于1 的,并且长度不固定。功能上并没有复杂性,但是因为一定要使用递归,就一定涉及char * 返回值类型的函数。先说一下一开始的思路:一位一位地转换。然后拼凑起来变原创 2021-08-23 17:06:07 · 1653 阅读 · 0 评论 -
pyqt学习 实时更新窗口
为了实现实时更新窗口,拟采用当前计算机时间进行更新,更新间隔为1s。代码如下。'''动态显示当前时间QTimer:如果完成周期性任务可以使用这个QThread:如果完成单个任务可以使用这个多线程:用于同时完成多个任务'''import sysfrom PyQt5.QtWidgets import *from PyQt5.QtCore import *class Activetime(QWidget): # 初始化 def __init__(self):原创 2021-08-14 17:51:11 · 2520 阅读 · 0 评论 -
pytorch添加C++拓展简单实战编写及基本功能测试
食用目录准备实验环境模块创建与使用基本流程第一步:编写C++内容第二步:编写setup.py第三步:命令行运行模块使用准备实验环境模块创建与使用基本流程利用C++写好自定义层发功能,主要包括前向传播和方向传播,以及pybind11的内容。写好setup.py脚本, 并利用python提供的setuptools来编译并加载C++代码。编译安装,在python中调用C++扩展接口编程使用拓展第一步:编写C++内容test.h注意这里调用了一个非常重要的文件<torch/extens原创 2021-01-29 23:18:29 · 1116 阅读 · 5 评论 -
《软件安全与测试》课程期末知识点汇总
一开始写在了语雀文档上,结果复制过来文本格式不兼容。懒得重新调整啦,这里就截图分享一下吧~原创 2020-12-29 23:14:05 · 394 阅读 · 0 评论 -
[知识笔记]fastjson使用总结
最近在java开发过程中,常常遇到要和json打交道。因为是在阿里实习的缘故,大家用的json解决方案貌似都是阿里自己开发的fastjosn,我上网搜索了一些相关教程,感觉对于我这个小白来说不太友好,于是我决定统一把这些用到的方法整理一份,方便以后自己查询。何为fastjsonFastjson 简介Fastjson 是一个由阿里开发的 Java 库,可以将 Java 对象转换为 JSON 格式,当然它也可以将 JSON 字符串转换为 Java 对象。Fastjson 可以操作任何 Java 对象,即原创 2020-08-11 11:46:48 · 286 阅读 · 0 评论 -
正则表达式学习链接
网上找了几篇博客,大同小异,这边简单做个索引hhh。不要背正则表达式:https://juejin.im/post/6844903845227659271菜鸟教程:https://www.runoob.com/regexp/regexp-tutorial.html正则表达式在线测试工具:http://c.runoob.com/front-end/854...转载 2020-08-04 17:27:10 · 110 阅读 · 0 评论 -
地位位置索引查询介绍——Geohash
Geohash本文介绍一种高维(二维以上)坐标对的搜索算法——Geohash。本文主要在二维层面进行分析Geohash算法的使用方法和优缺点。Geohash 介绍在日常生活中,我们对某一坐标的定位,一般都是使用经纬度来进行标记的。比如:中国科学技术大学(经度:117.26139,纬度:31.83819。我们获取一个区域的位置,是使用一个二维数组对其进行标记的,它表示的不是一个具体的点,而是泛指一片区域,区域的范围与经纬度的取值精度直接相关。Geohash是 Gustavo Niemeyer 和GM原创 2020-07-14 14:55:20 · 1759 阅读 · 0 评论 -
MongoDB复制集机制及节点选举原理
MongoDB复制集机制及节点选举原理本文主要整理了MongoDB的复制集概念,并简单介绍了一下选举机制的原理。MongoDB复制集的作用MongoDB复制集的主要意义在于实现服务高可用。一个MongoDB复制集最多拥有7个具有投票权的从节点,每个从节点最多拥有7个子节点,再加上1个主节点。复制集的实现主要依赖于两个方面的功能:数据写入时数据迅速复制到另一个独立节点上。在接受写入的节点发生故障时自动选举出一个新的替代节点。在实现高可用的同时,复制集实现了其它几个附加作用:数据分发:将数原创 2020-07-10 20:55:11 · 765 阅读 · 0 评论 -
MongoDB 4.2.8 用户和角色权限管理总结
说明关于MongoDB的用户和角色权限的梳理一直不太清晰,仔细阅读了下官方文档,并对此做个总结。默认情况下,MongoDB实例启动运行时是没有启用用户访问权限控制的,也就是说,在实例本机服务器上都可以随意登录实例进行各种操作,MongoDB不会对连接客户端进行用户验证,可以想象这是非常危险的。其实,MongoDB在2.4的版本的时候就已经引入了橘色方面的介绍。详见链接 JavaScript Changes in MongoDB 2.4 。本文就MongoDB用户的权限和角色管理进行测试,主要参考的是原创 2020-06-29 14:44:56 · 1119 阅读 · 0 评论 -
何为Serverless?为何Serverless?
特点• 事件驱动• 细粒度调用,大部分以函数为单位• 实时性弹性伸缩,实现“绿色”计算• 无序管理服务器等底层资源意义• 开发者部署代码时不需要担心服务器等底层问题,也不用关心业务逻辑、路由等,只需要关心业务逻辑• 没有绑定HTTP模型• 闲置时不需要付费提供函数即服务(FaaS)• 写的一切都是函数,相互独立,方便重组• 不同函数可以采用不同语言编写• 针对每个请求启动和停止整个应用程序• 在需要的时候自动扩展• 两次调用间不能共享内存状态,存储数据需要从云端数据库进行,增加了原创 2020-06-14 17:27:59 · 255 阅读 · 0 评论 -
[转载]什么是CDN缓存?
CDN是什么?简单的说,CDN是Content Delivery Network的简称,即“内容分发网络”的意思。一般我们所说的CDN加速,一般是指网站加速或者用户下载资源加速。CDN可以理解为分布在每个县城的火车票代售点,用户在浏览网站的时候,CDN会选择一个离用户最近的CDN边缘节点来响应用户的请求,这样海南移动用户的请求就不会千里迢迢跑到北京电信机房的服务器(假设源站部署在北京电信机房)上了。CDN的优势很明显:(1)CDN节点解决了跨运营商和跨地域访问的问题,访问延时大大降低;(2)大部分转载 2020-06-08 19:12:34 · 326 阅读 · 0 评论