鸿鹄一夏-CSDN博客

原创【datawhale学习-强化学习】3. 免模型预测和控制

考虑一个马尔可夫决策过程（MDP），智能体与环境进行交互，产生一个轨迹（trajectory），其中包含一系列状态、动作和奖励。我们的目标是估计每个状态的值函数。

2023-11-18 23:10:01 302

原创【datawhale学习-强化学习】2.MDP+DP

策略评估（Policy Evaluation）：计算给定策略下的状态值函数（VπV^\piVπ）或动作值函数（QπQ^\piQπ通过迭代或解线性方程组等方式，更新值函数，直到收敛为止。策略改进（Policy Improvement）：在已经计算得到的值函数的基础上，进一步改进策略。贪婪地选择能够最大化值函数的动作，形成新的策略。策略迭代（Policy Iteration）：交替进行策略评估和策略改进，直到策略不再改变。策略迭代保证最终收敛到最优策略和最优值函数。初始策略π0。

2023-11-15 20:07:42 276

原创【datawhale学习-强化学习】1.基础定义+介绍

强化学习（Reinforcement Learning，简称RL）是一种机器学习方法。目标是通过代理与环境的交互学习，以实现某种目标或最大化累积的奖励信号。如图：在强化学习中，代理根据环境的状态采取行动，并接收一个奖励信号作为反馈，通过学习从先前的经验中提取知识，逐步改进其策略，以达到最优的决策策略。学习和决策的主体，它负责感知环境、选择行动，并通过学习来提高其性能。代理与之交互的外部系统或情境，其状态可能受到代理的行动影响。描述环境的特定瞬时情况，影响代理选择下一步行动的依据。

2023-11-15 20:03:49 355

原创【学习笔记】d2l-chapter10 注意力机制

回顾了一个经典的注意力框架，最主要的是里面的注意力提示（attention cues）。解释了如何在视觉场景中展开注意力。这通常涉及根据特定的注意力提示来聚焦于感兴趣的区域或特征。提到这是一个机器学习的简单演示，具有注意力机制。Nadaraya-Watson核回归是一种用于回归分析的方法，通常用于估计条件期望函数。提到了注意力函数在深度学习中的广泛应用。具体介绍了如何使用这些函数来设计Bahdanau注意力。

2023-11-09 19:39:41 387

原创【学习笔记】d2l-chapter2 预备知识

本章主要作为学习+查询工具，之后有什么不太记得的语句，可以返回来用ctrl+F来查询。

2023-11-09 18:13:17 141

原创【学习笔记】d2l-chapter1 引言

（backpropagation））一次性调整网络中的全部参数。（统计数据）罗纳德·费舍尔：线性判别分析，费舍信息矩阵。其他就是对各种机器学习问题展开简要的介绍，不再赘述。早期数学一直有在做：数据分析和预测未来结果。神经网络：研究相互作用的神经元网络的计算电路。一开始的核心思想：使用数据和神经网络编程。（对数据本身）伯努利分布，高斯分布等。线性和非线性处理单元的交替，通常称为。香农的信息论+图灵的计算理论。使用链式规则（也称为。

2023-11-09 17:27:56 78 1

原创【学习笔记】d2l-chapter8 循环神经网络

目录前言序列模型自回归模型马尔可夫模型序列模型代码序列数据处理——文本预处理从序列模型到语言模型（过渡）语言模型传统方法马尔可夫模型和n元语法词元统计深度学习方法处理长序列数据随机采样顺序分区Q&A循环神经网络背景从MLP到RNN反向传播1.通过时间反向传播（BPTT）2.反向传播梯度细节质量度量指标——困惑度RNN代码从0实现RNN框架梯度截断训练简洁实现前言循环神经网络RNN：用于处理序列数据和时间序列数据。且具有一种循环的结构，使其能够在处理序列数据（input）时具有记忆能力。RNN

2023-11-09 17:09:19 2677 1

原创【学习笔记】d2l-chapter5深度计算

用模型参数声明层。这里，我们声明两个全连接的层# 调用MLP的父类Module的构造函数来执行必要的初始化。# 这样，在类实例化时也可以指定其他函数参数，例如模型参数params（稍后将介绍）self.hidden = nn.Linear(20, 256) # 隐藏层self.out = nn.Linear(256, 10) # 输出层# 定义模型的前向传播，即如何根据输入X返回所需的模型输出# 注意，这里我们使用ReLU的函数版本，其在nn.functional模块中定义。

2023-11-09 17:01:24 212 1

原创【学习笔记】d2l-chapter9 现代循环神经网络

目录前言GRU（门控循环网络）重置门和更新门候选隐状态——运用重置门隐状态——运用更新门从0实现简洁实现总结LSTM（长短期记忆网络）输入门、遗忘门、输出门候选记忆元记忆元——运用输入门和遗忘门隐状态——运用输出门从0实现简洁实现总结深度循环神经网络隐状态输出简洁实现双向循环神经网络隐马尔可夫中的动态规划双向模型应用领域计算成本机器翻译与数据集编码器-解码器架构序列到序列学习(seq2seq)编码器**解码器**损失函数训练预测预测序列的评估预测评分应用束搜索贪心搜索穷举搜索束搜索前言门控循环单元（

2023-11-09 16:59:37 274 1

原创【学习笔记】d2l-chapter7 现代卷积神经网络

1×1。

2023-11-09 16:45:39 291 1

原创【学习笔记】d2l-chapter6 卷积神经网络

卷积神经网络（CNN）三大特性：区部连接、权值共享、池化。图像和。

2023-11-09 16:38:22 385 1

原创【论文阅读】异构联邦学习综述：最新进展与研究挑战

这是关于一篇异构联邦学习的综述，希望能从这篇文章对联邦学习有一个大致的了解。作者从一开始就呈现了文章总体的思维导图，非常具有指引效果。通俗的来说就是：允许多个设备或数据源在不共享原始数据的情况下，共同训练模型以提高预测性能。主要目的：保护隐私。联邦学习：机器学习的分布式计算方法，旨在让多个参与方共同训练模型，而无需将其原始数据集集中存储在一个地方。这种方法允许在保护数据隐私的前提下，进行模型的训练和更新。

2023-09-07 19:16:59 8086 1

原创【实战学习】电商领域搜索——信息检索（1）

文章目录前言一、文本预处理1.数据的读取——pandatsv格式的读取数据的编码2.中文分词——jieba3.Scikit-learn计算TF-IDF4.代码示例总结前言学习任务基本思路：首先用read_csv方式读取数据——>再使用jieba对句子进行搜索引擎的分词——>再将分完后的词将其合成一个str，便于后续计算tf-idf——>使用Scikit-learn计算tf-idf，将其处理成向量一、文本预处理1.数据的读取——pandatsv格式的读取与读取csv的区别

2022-03-15 23:43:45 486

翻译【openBCI系列】Cyton的数据格式

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、Proprietary ("RFDuino") vs Standard Bluetooth（专有的（"RFDuino"）与标准蓝牙的比较）二、Serial Setup（串行设置）三、StartupCyton Board8bit Board (deprecated)Initiating Binary Transfer（启动二进制传输）Firmware Version 1.0.0 (2014 to Fall 2016)（固件版本

2022-03-02 17:03:43 3462 1

原创李沐【实用机器学习】1.4数据的标注

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、半监督学习重要算法：自学习算法二、众包标注需要考虑解决方法主动学习自学习和主动学习结合弱监督学习总结前言数据的标注——思维导图一、半监督学习有一小部分是由标注的，但很多是没有反馈的。例如：一个网页，一小部分游览的用户有明确的标注，但绝大部分用户不知道他们干什么，所以没有反馈没有标注。所以怎么样用小的有标注的数据和很大的没有标注的数据一起利用起来。假设：1.连续性的假设：样本特征相似，那么这两个样本的标注是一

2022-02-28 11:24:35 1546

原创李沐【实用机器学习】1.3网页数据抓取

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、数据抓取工具二、实例解析总结前言网页数据抓取目标：在一个网站里面感兴趣的数据抓取出来数据特点：噪点较多，标签较弱，很多无用信息，但是数据量大。爬网页和网页数据抓取的区别：爬网页：把所有的网页爬下来，然后之后搜索引擎就可以去搜索到它网页数据抓取：对网页中特定的数据感兴趣一、数据抓取工具主题：网页会有一个反扒方法。通常方法：使用headless（就相当于一个游览器但没有图形界面）from seleniu

2022-02-25 21:28:42 1020

原创李沐【实用机器学习】 1.2数据获取

文章目录前言一、常见数据集来源二、数据集的查找三、数据集的分类四、数据融合五、生成数据集总结前言假设已经将问题转化为机器学习的问题，首先需要问自己，是否由足够多的数据？是不是有不同的数据源数据集使得你能用？yes，则`找数据、融合数据`。no，则问怎么样生成这样的数据？一、常见数据集来源MNIST：手写数据集ImageNet：（比较大的数据集）百万级的图片，图片搜索引擎来的，比如将百度Google等引擎搜索下来的图片放在一起，进行一些人工的标注，可以训练比较大的神经网络AudioSet：y

2022-02-25 20:30:41 1120

原创李宏毅机器学习笔记p21：CNN

文章目录前言一、CNN与图像处理CNN架构convolutionmaxpoolingflatten总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、CNN与图像处理CNN常用于影像处理。实际上在影像处理上，我们希望一层层layer看到的东西是越来越深入的。在影像处理上，CNN比一般的training neural netw

2021-10-25 19:14:15 335

原创李宏毅机器学习笔记：新版p5-p9网络设计的技巧

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言局部最小值和鞍点鉴别方法批次batch和动量momentumbatchsmall batch 和large batchmomentum自动调整学习率warm up总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考局部最小值和鞍点training los

2021-10-20 19:39:47 599

原创李宏毅机器学习笔记p13-p14：深度学习简介+反向传播

文章目录前言一、深度学习简介总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。一、深度学习简介总结提示：这里对文章进行总结：例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。...

2021-10-17 22:43:13 481

原创李宏毅机器学习笔记p5-p8：误差和梯度下降

文章目录前言误差Error偏差Bias方差Variance梯度下降二级标题三级标题四级标题五级标题六级标题总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考误差Error通过前文的学习，我们了解到当次数越高的时候，模型越复杂的时候，测试效果可能不是很好（出现过拟合现象）这些误差Error主要来源于bias (偏差) 和 vari

2021-10-16 01:02:21 274

原创李宏毅机器学习笔记p3-p4

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一：Regression回归1.线性模型2.损失函数3.梯度下降三级标题四级标题五级标题六级标题总结前言经过上一篇章的学习，我们得知了有很多种深度学习，比如监督学习，无监督学习，强化学习等，监督学习算是深度学习的入门第一手，所以我们先学习监督学习中的回归一：Regression回归定义：前期学习（通过很多正确的输入和输出——>找到一个函数function）,然后再输入特征x，输出一个结果。步骤：1.先选择模

2021-10-13 13:05:43 427

原创李宏毅机器学习笔记p1-p2

文章目录前言一、人工智慧二、学习导图监督学习回归问题分类问题binary classificationmulti-class classificationfunction set——model半监督学习迁移学习无监督学习监督学习中的结构化学习强化学习AI训练师总结前言提示：主要是介绍了人工智慧和人工智能的一些基本框架一、人工智慧深度学习是人工智慧之一生物的本能人类设定好的本能这两者的比较hand-crafted rules没有办法考虑到所有的可能性，没有办法超过创造他的能力，它只是遵顼人.

2021-10-11 16:55:19 438

原创《深度学习入门》1-4章：学习笔记

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、python的一些知识1.基本知识2.numpy二、感知机三、神经网络3.1.感知机到神经网络3.2.激活函数3.2.1 阶跃函数3.2.2 sigmoid函数3.2.3 ReLU函数3.3.多层神经网络3.4.恒等函数和softmax函数四、神经网络的学习4.1一些基本的概念4.2 损失函数4.2.1 均方误差4.2.2 交叉熵误差五、误差反向传播法六、与学习相关的技巧总结前言由于本人大一的时候只是粗略的

2021-10-08 19:10:23 281

原创数模学习——灰色系统理论

灰色系统：部分信息明确部分信息不明确主要是用于关联分析和预测信息不完全：1.元素信息不完全2.结构信息不完全3.边界信息不完全4.运行行为信息不完全以灰色模型（G，M）为核心灰色关联分析法建模过程通过评价数据——和参考数据列——就可以算出优劣1.收集评价数据2.确定参考数据列放在第一列是指标的最优值3.对指标数据进行无量纲化4，逐个计算每个被评价对象指标序列与参考序列对应元素的绝对差值5.找出整个矩阵中的最小和最大6.计算关联系数（左上右上右下都是上面找出

2021-10-08 16:22:26 2417

weixin_51413726的博客