- 博客(23)
- 收藏
- 关注
原创 玩转星际争霸局部战斗 —— QMIX
这里写自定义目录标题写在前面QMIX 论文解读多智能体的相关工作Dec-POMDPDRQNIQL(Independent Q-Learning)VDN(Value Decomposition Networks)QMIXQMIX 结构核心——单调性约束在 aistudio 上运行 QMIX环境准备测试游戏环境QMIX 代码部分执行部分定义 agent 网络结构Mixing 网络定义策略与训练部分主函数部分(负责定义与调度)开始训练建议使用 visual 打开 run 文件夹进行训练曲线的监测,当训练收敛并稳定
2021-04-19 21:16:52
4091
1
原创 Paddle-NEAT——飞桨进化神经网络组件
Paddle-NEAT——飞桨进化神经网络组件目录Paddle-NEAT——飞桨进化神经网络组件写在前面:NEAT 简介基因组的表示基因组的变异节点变异连接变异基因组的交叉最后稍微介绍一下 NEAT 的两种改进形式:HyperNEATAdaptive HyperNEAT运行Paddle-NEAT安装继续来立我们的棍子吧运行一下当然走一下迷宫也是可以滴运行一下写在前面:最近自己写了个把 neat-python 和 paddlepaddle 深度学习框架相结合的套件,取名叫 Paddle-NEAT。链接会
2021-03-09 22:27:13
587
原创 探索的大胜利——随机网络蒸馏(Random Network Distillation)
本项目是之前写过的一个项目项目——[好奇心驱动的强化学习](https://aistudio.baidu.com/aistudio/projectdetail/1434970)中鼓励探索机制(好奇心机制也是其中一种)的另一种形式,对好奇心还不是很熟悉的童鞋可以看看。
2021-03-09 22:05:00
5405
9
原创 强化学习 Reinforcement Learning(七)—— 值分布强化学习算法 C51
本文主要介绍值分布强化学习的一些基本概念,然后聊一聊值分布强化学习的开山之作 —— C51。
2021-03-02 10:40:16
4246
1
原创 量子计算基础整理(上)
量子计算基础整理目录量子计算基础整理写在前面量子力学基础量子的四个特性量子态的描述写在前面大年初一,本来是计划玩一天电动的,突然觉得有一点点索然无味。遂整理一下先前看过的《量子计算与编程入门》一书的一些知识点,算是读书笔记。本文的知识点较为简单,主要分为以下两个部分:量子力学基础理论量子程序量子力学部分主要为搭建一个电路所需要的最基础的知识点,量子程序也同样如此。本人并没有量子力学的基础,但量子计算机关注的重点是计算机,而非量子。若对线性代数或矩阵论的内容较为熟悉,应该没有特别大的困难。
2021-02-15 21:22:13
2925
1
原创 基于 Paddle2.0 的强化学习新玩法 —— 通关超级马里奥兄弟
超级马里奥兄弟作为几代人的童年回忆,陪伴了我们的成长。如今随着深度强化学习的发展,越来越多的游戏已经被 AI 征服,那么今天我们展示如何用深度强化学习,试着通关超级马里奥兄弟吧!
2021-01-24 18:35:58
1171
3
原创 强化学习 Reinforcement Learning(六)——好奇心驱动的强化学习
本文将讲述关于好奇心机制的主要内容,向读者展示什么是好奇心机制,最后复现 ICM ,并与我们熟悉的 DQN 相结合噢噢,差点忘了,本文的代码全部基于 paddle2.0rc 版本
2021-01-12 16:16:04
5338
6
原创 强化学习 Reinforcement Learning(五)—— 使用 K20 单片机玩一个 Q 学习小游戏
强化学习 Reinforcement Learning(五)—— 使用 K20 单片机玩一个 Q 学习小游戏目录强化学习 Reinforcement Learning(五)—— 使用 K20 单片机玩一个 Q 学习小游戏写在前面小游戏内容程序功能代码部分效果展示写在前面因为这个学期需要学习飞思卡尔的K20单片机,突发奇想看看能不能写个Q学习的小游戏让单片机自己玩一下。本文用到的单片机:KinetisMKDN512小游戏内容上图中有 5 个房间,分别被标记成房间 0~4,房间外被标记成 5,现
2020-12-05 19:07:11
1181
原创 单目纯视觉避障方案——2020中国机器人大赛FIRA避障仿真组决赛代码开源
单目纯视觉避障方案——2020中国机器人大赛FIRA避障仿真组决赛代码开源
2020-12-04 21:19:01
5910
原创 强化学习 Reinforcement Learning(四)——如何使用百度 PARL 框架通关马里奥兄弟
快把代码跑起来,看看你的模型什么时候能通关吧!!!(????叫)
2020-11-28 14:04:51
1066
2
原创 强化学习 Reinforcement Learning(二)——是时候用 PARL 框架玩会儿 DOOM 了!!!(上)
突然发现一直好像还没有人用百度的 PARL 玩过毁灭战士,所以这两天在学习之余娱乐一下,给大家整个活儿:)
2020-11-01 16:58:18
485
1
原创 数字图像处理——隐形眼镜缺陷检测算法
数字图像处理作业——隐形眼镜缺陷检测算法摘 要:本文致力于寻找出一种具有较强鲁棒性的检测隐形眼镜边缘缺陷的方法。本文针对图像中物体几何形状的特殊性,提出了一种基于霍夫变换的缺陷检测算法,并在低噪声图像的缺陷检测中取得了不错的效果。在此过程中,本文还分别对残缺图像、大缺陷图像以及含椒盐噪声的图像进行了实验,仅通过改变预处理的一些步骤就可达到相同的检测效果,验证了该算法的鲁棒性。关键词:霍夫变换;边缘检测;缺陷检测;机器视觉;图像处理中图分类号: 文献标志码:
2020-10-17 14:56:24
4778
8
原创 强化学习 Reinforcement Learning(一)
简单理解强化学习(Reinforcement Learning)本文目录简单理解强化学习(Reinforcement Learning)什么是强化学习强化学习分类方法汇总什么是强化学习强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题 。强化学习的常见模型是标准的马尔可夫决策过程(Markov Decision Pro
2020-09-21 22:34:40
813
2
原创 2020全国大学生数学建模C题初尝试——基于 PaddlePaddle LSTM 的中小微企业信贷决策模型
2020全国大学生数学建模C题初尝试——基于 PaddlePaddle LSTM 的中小微企业信贷决策模型
2020-09-12 15:29:19
9819
6
转载 机器学习笔记公式推导(一):第一部分
原文来自:https://github.com/tsyw/MachineLearningNotes为视频(BV号:1aE411o7qd)的笔记整理笔记目录Introduction频率派的观点贝叶斯派的观点小结MathBasics高斯分布一维情况 MLE多维情况Introduction对概率的诠释有两大学派,一种是频率派另一种是贝叶斯派。后面我们对观测集采用下面记号:XN×p=(x1,x2,⋯ ,xN)T,xi=(xi1,xi2,⋯ ,xip)TX_{N\times p}=(x_{1},x_{2}
2020-09-10 21:22:47
454
原创 高斯滤波——KF、EKF 与 UKF
本文是本人学习卡尔曼滤波及其拓展算法时整理的笔记。由于本人的知识体系尚不完整,对许多基本且经典的理论没有充分的了解,所以本文也会对其中一些理论进行解释。
2020-08-19 00:39:40
2566
3
原创 ZiSeoi 的西瓜书笔记(二):第二章 模型评估与选择
ZiSeoi 的西瓜书笔记(二):第二章 模型评估与选择、文章目录ZiSeoi 的西瓜书笔记(二):第二章 模型评估与选择、
2020-08-17 22:46:20
490
1
原创 Pix2Pix——基于GAN的图像风格迁移模型
本文是文献[Image-to-image translation with conditional adversarial networks](https://arxiv.org/abs/1611.07004)的笔记。Pix2Pix 基于 GAN 架构,利用成对的图片进行图像翻译,即输入为同一张图片的两种不同风格,可用于进行风格迁移。
2020-08-16 13:55:56
22893
1
原创 从元件角度简单理解CNN
本文旨在帮助想要初步了解**卷积神经网络**(CNN)工作原理的小白能对其整体结构有一个大致的认识。文中多有谬误之处,望读者朋友们谅解。
2020-08-14 19:10:00
1210
原创 ZiSeoi的西瓜书笔记(一):第一章 绪论
这里是 ZiSeoi 的第一篇博客。想了很久,最终还是打算先从大多数人机器学习的启蒙读物 **西瓜书** 的第一章写起,分享一点自己的读书心得。
2020-08-14 15:41:00
446
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人