yuri_yagn-CSDN博客

原创 P15-P18-随机梯度下降-自适应学习率-超参数筛选-正则化

本文主要讨论了机器学习中随机梯度下降（SGD）和自适应学习率算法的原理及应用。SGD通过随机选择小批量样本计算损失值，减少了计算量，加快了训练速度。自适应学习率算法如Adam、RMSProp和Adagrad，通过自动调整学习率，提高了训练收敛速度。此外，本文还介绍了超参数筛选、交叉验证、正则化（权重衰减、L1和L2正则化）、Dropout等方法，以解决过拟合和欠拟合问题，提高模型泛化能力。最后，对Dropout的比例控制和测试时调整进行了阐述。

2024-07-20 23:17:53 1144

原创《DRL》P10-P15-损失函数-优化(梯度下降和误差的反向传播)

本文介绍了神经网络中的损失函数及其优化方法。损失函数用于衡量模型预测值与真实值之间的差异，其中交叉熵损失函数在分类问题中尤为重要。文章详细解释了交叉熵的概念，并通过二分类任务示例，阐述了如何使用sigmoid函数和交叉熵损失函数进行模型训练。在多类别分类任务中，softmax函数与交叉熵损失函数的结合提供了一个强大的训练框架。此外，文章还介绍了均方误差、平均绝对误差等其他损失函数，以及梯度下降和反向传播算法在神经网络优化中的应用。最后，讨论了激活函数的选择对模型训练效果的影响。

2024-07-18 17:15:37 924

原创《TF2.x强化学习手册》P59-P65-SARSA-Q-learning

在每次迭代中，SARSA算法都会根据当前的状态和动作来更新价值表，目标是找到每个状态下的最优策略。Q 学习可以应用于无模型的强化学习问题。它支持离轨（off-policy）学习，为使用其他策略或其他智能体收集经验的问题提供了实用的解决方案。SARSA算法比Q学习算法具有更好的收敛性，因此它更适合在线学习或再真实系统上学习。本节将构造一个可工作的强化学习智能体，使用Q学习算法生成状态-价值函数。定义一个实现Q学习算法的函数，并用0初始化状态-动作价值。如何实现SARSA算法（状态-行动-奖励-状态-行动）

2024-07-17 21:09:13 1063

原创《DRL》P1-P10感知器-多层感知器-激活函数

如果想对深度学习中的部分内容进行深入的学习和了解，推荐阅读和判别模型。用于建模条件概率py∣xp(y|x)py∣x，即在给定输入𝑥的情况下，输出𝑦的概率。基于输入数据，预测对应的标签。大多应用于需要判断的任务，例如：分类任务和回归任务。很多情况下分类模型并不直接指定目标类别，而是给每一个备选类别计算一个概率。即判别模型可能不会直接给出一个确定的类别，而是为每个可能的类别计算一个概率分布。这样做主要是为了便于在训练阶段对模型进行优化。

2024-07-17 17:14:29 782

原创《TF2.x》强化学习手册-P47-P59-TD时序差分-Monte_carlo蒙特卡洛预测与控制算法

这个代码使用了蒙特卡洛预测方法来估计环境中的状态价值，通过多次模拟（随机策略）来收集足够的数据，并计算每个状态的平均回报。这种方法适用于具有确定性的环境，其中状态转换和奖励是已知的。KaTeX parse error: Can't use function '\)' in math mode at position 1: \̲)̲ 为计算出的概率向量。运行max_episodes个回合的时序差分学习，然后产生的图可以展示GridworldV2环境的网格单元坐标和状态值，每个状态根据右边显示的刻度着色。

2024-07-16 19:49:44 1125

原创《DRL》P0-数学符号（基础符号、强化学习符号、强化学习术语）

RRR是奖励函数，RtRStRtRSt是MRP中状态StS_tSt的奖励，RtRStAtRtRStAt是MDP中的奖励，St∈SS_t ∈ SSt∈S。Rτ是轨迹τ的γ-折扣化回报,Rτ∑t0∞γtRt。

2024-07-16 16:38:44 325

原创《TF2.x强化学习手册》P14-P26连续动作空间的神经网络强化学习以及Gym作为训练环境和构建神经网络智能体

call函数是作为keras.Model的子类必须实现的方法，先将输入装换为TensorFlow2.x张量，再展平为1×total_number_of_elements形状的张量。policy_mlp()将输入的观测展平，并发送给智能体的大脑进行处理，以获得action_logits，即动作的非归一化概率。Agent类利用Brain类和一个简单的策略，其中神经网络对从环境获得的观测进行处理，而策略将根据神经网络的输出选择一个动作。构建完整的智能体和环境的交互循环，这是强化学习应用的主要组成部分。

2024-07-14 00:30:16 1176

原创《TF2.x 强化学习手册》P0-P13构建强化学习智能体的环境和奖励机制以及离散动作空间和离散决策问题的实现基于NN的RL策略

第一章，使用TensorFlow 2.x开发深度强化学习的基本模块第二章，基于价值、策略和行动者-评论家的深度强化学算法实现第三章，高级强化学习算法的实现（深度Q网络、双重与竞争深度Q网络、深度循环Q网络、异步优势行动者-评论家、近端策略优化、深度确定性策略梯度）第四章，现实世界中的强化学习——构建加密货币交易智能体第五章，现实世界中的强化学习——构建股票/股份交易智能体第六章，现实世界中的强化学习——构建智能体来完成您的待办事项第七章，在云端部署深度强化学习智能体。

2024-07-13 01:08:45 1093

原创《FLASK实战》-P54-P67 上下文和HTTP进阶

另一种复杂情况是用户单击某个需要登录才能访问的连接，这时程序会重定向到登录页面，当用户登录后，合理的行为是重定向到用户登录前浏览的页面，以便用户执行未完成的操作，而不是直接重定向到主页。每一视图函数需要上下文信息，如果将请求报文封装在Request中，得将它作为参数传入视图函数，这将导致大量的重复，增加视图函数的复杂度。在jQuery中的ajax()方法的success回调中，响应主体的JSON字符串会被解析为JSON对象，我们可以直接获取并进行操作。

2024-07-12 01:26:12 319

原创《FLASK实战》-P50-P53session中字段的增删

默认情况下，session在浏览器关闭后该cookie就会被删除，但是如果将session.permanent设置为True，可以将session的有效期延长至Flask.permanent_session_lifetime属性值对应的datetime.timedelta对象，也可以通过配置变量PERMANENT_SESSION_LIFETIME设置，默认为31天。session.pop(‘logged_in’) #删除logged_in字段。

2024-07-08 00:34:26 153

原创 Flask web开发实战P43-P50响应格式与cookie

在HTTP响应中，数据可以通过多种数据传输。数据的格式需要通过MIME设置，Flask中默认是HTML。MIME类型，又称media type或content type，是一种标识文件类型的机制，它与文件扩展名相对应，使客户端可以区分不同的并执行不同的。一般的格式如下图：为类型名/子类型名。

2024-07-07 00:38:15 721

原创 baseline在A2C中的运用

参考 ]：https://www.bilibili.com/video/BV1f34y1P7tu?

2024-07-05 23:14:48 1082

原创 GitHub|GitHub Desktop协作指南

GitHub与他人协作以及如何使用GitHub Desktop

2024-03-15 21:49:50 644 1

原创 Linux关机/重启

【代码】Linux关机/重启。

2024-03-05 19:00:00 399 1

原创 Linux用户管理/添加/删除/切换/修改密码

一个Linux系统只有一个root用户，可以创建多个用户。每一个用户对应一个目录——家目录。

2024-03-05 18:58:52 403 1

原创 Python@的作用|装饰器

把注入的参数传入指定的函数中。

2024-03-03 17:21:50 906

原创机器学习分布式训练过程

分布在不同机器上的进程完成通信,确认彼此的存在。每一轮训练各自完成前向计算和后向计算。每一个进程享受所有进程的计算。同步,得到平均参数更新量。

2024-03-03 13:03:32 415

原创 SUMO入门

交通仿真软件sumo的入门操作

2024-02-18 08:33:50 757

原创 Qt5，E0304，没有与参数列表匹配的重载函数 “connect“，信号槽问题

Qt 严重性代码说明项目文件行禁止显示状态错误(活动) E0304 没有与参数列表匹配的重载函数 "Calculator::connect" 实例

2022-10-03 18:49:08 1826 1

原创 hangman小游戏【Python】

hangman小游戏【Python】

2021-12-01 10:45:00 946

原创 hangman进阶版

hangman进阶版

2021-12-01 00:30:00 300

原创【Python】列表学习题

# 企业发放的奖金根据利润提成。利润(D低于或等于10万元时，奖金可提10%;# 利润高于10万元，低于20万元时，低于10万元的部分按10%提成，高于10万元的部分，# 可提成7.5%;20万到40万之间时，高于20万元的部分，可提成5%;# 40万到60万之间时高于40万元的部分，可提成3%;60万到100万之间时，# 高于60万元的部分，可提成1.5%，高于100万元时，超过100万元的部分按1%提成，# 从键盘输入当月利润I，求应发放奖金总数?i = int(input('输入本月利

2021-11-22 12:39:19 1698