瓜瓜蛋-CSDN博客

原创李沐 X 动手学深度学习--第九章现代循环神经网络

这个构架的思想和HMM的forward recursion和backward recursion没有大区别，主要的区别是：HMM的方程具有特定的统计意义；在小批量时用于将序列填充到相同长度的填充词元(“<pad>”)，以及序列的开始词元(“<bos>”)和结束词元“<eos>”)。因为一个较长的序列在(9.8.4)的求和中会有更多的对数项，因此分母中的L“用于惩罚长序列。从这十个值中选择最大的两个,即P(A,B,D|c)和P(C,E,D|c),我们会得到六个候选输出序列:(1)A;f：一些可学习的函数；

2025-04-03 22:24:55 998

原创李沐 X 动手学深度学习--第六章卷积神经网络

通过逐渐聚合信息，生成越来越粗糙的映射，最终实现学习全局表示的目标，同时将卷积图层的所有优势保留在中间层。当检测较底层的特征时（eg:前面的图像边缘），我们通常希望这些特征保持某种程度上的平移不变性。eg:如果我们拍摄黑白之间轮廓清晰的图像x，并将整个图像向右移动一个像素，即z[i，j]=X[i，j+1]，则新图像z的输出可能大不相同。而在现实中，随着拍摄角度的移动，任何物体几乎不可能发生在同一像素上。

2024-12-20 14:35:02 2286 1

原创李沐 X 动手学深度学习--第八章循环神经网络

由上述图表可知，单步预测效果不错，时间步超过600+4（n_train + tau)的预测结果看起来也是可信的，但是。例如，“猫”(cat)和“猫科动物”(feline)可能出现在相关的上下文中，但是。（ps：t对于上图的这种序列通常是离散的，并且t在整数或者整数的子集上变化。eg:未来24小时的天气预报往往还算准确，但超过这一点，精度就会迅速下降。最后，长单词序列大部分是没出现过的，因此。以上图近30年的富时100指数，其中，用。的观测序列，其在时间步t+k处的预测输出。为例：=0，不应用平滑；

2024-12-20 14:06:19 2182

原创李沐 X 动手学深度学习--第七章现代卷积神经网络

导入：本章介绍的神经网络是将人类直觉和相关数学见解结合后，经过大量研究试错后的结晶。本章按时间顺序介绍这些模型，在追寻历史的脉络的同时，帮助培养对该领域发展的直觉（炼丹的直觉），这有助于研究开发自己的架构。CV研究人员认为推动领域进步是数据特征而不是学习算法，从对最终模型精度的影响来说，更大/更干净的数据集或是稍微改进的特征提取，比任何学习算法带来的进步要大得多。另一个预测这个领域发展的方法---观察图像特征的提取方法。图像特征提取方法的历史： AlexNet的更高层建立在这些底层表示的基础上，以表示更大的

2024-12-18 16:07:04 1144

原创李沐 X 动手学深度学习--4.5+4.6 解决过拟合的方法

使用L2范数而不是L1范数的原因：L2正则化线性模型构成岭回归（ridge regression）算法，L2范数对权重向量的大分量施加了巨大的惩罚，使得我们的学习算法偏向于在大量特征上均匀分布权重的模型，可能使得它们在对单个变量中的观测误差更为稳定；但是线性模型没有考虑特征之间的交互作用，对于每个特征，线性模型必须指定正的或负的权重，而忽略其他特征，其泛化的可靠性是有代价的。经典泛化理论认为：“好”的预测模型：能在未知的数据上有很好的表现，为了缩小训练和测试性能之间的差距，应该以简单的模型为目标。

2024-11-26 11:07:26 663

原创 OpenHarmony驱动开发--UART（串口）驱动

现在一般都不需要loTUartDeinit。

2024-10-26 21:57:00 1361

原创肆十二--YOLOv8原理解析学习笔记

下图是YOLOv8在coco目标检测的一些性能结果：左图：x:参数量(根据卷积层的宽度和深度区分，n:Nano，s:small, m:medium, l:large, x:xlarge）;y:coco的mAP右图：x: Latency A100 TensorRT FP16;y:coco的mAP。

2024-10-10 19:01:52 1328

原创李沐 X动手学深度学习数据操作+数据预处理学习笔记（无代码，纯理论部分）

机器学习和神经网络最主要的的数据结构：N维数组标量，eg:1.0（是一个浮点数，可能表示一个类别）向量，eg:[1.0, 2.7, 3.4]（特征向量，样本抽象成一个数字）矩阵，eg:[4.3，8.5，0.2]](一个样本的特征矩阵，该矩阵就是有3个样本，每一行就是一个样本，每一列就是样本的特征eg:一张图片，RGB图片（宽：列数，高：行数，通道数）n个3维数组放在一起，eg:一个RGB图片的批量（批量大小 x 宽 x 高 x 通道）

2024-10-09 21:04:57 339

原创李沐 X 动手学深度学习深度学习介绍学习笔记

x轴：时间；y轴：错误率；每一个点：paper中的错误率。

2024-10-08 19:50:36 468

原创刘二大人《PyTorch深度学习实践》完结合集Overview学习笔记

数字是抽象的：2个苹果，2条鱼，其实这个2就是个抽象的量化统计概念，并没有指定其到底是啥，仅是个量化的抽象概念，所以我们说数字是抽象的（

2024-10-08 14:36:26 858

原创李宏毅 X 苹果书自注意力机制学习笔记下

输入第四个向量输入时，把第四向量跟前一个时间点产生出来的输出再一起做处理，得到新的输出再通过全连接网络的层。入的序列，而循环神经网络的每一个向量只考虑了左边已经输入的向量，它没有考虑右边的向。考虑最左边的输入，它就必须把最左边的输入存在记忆里面，才能不“忘掉”，一路带到最右。之前在做自注意力的时候，所谓的关联性是网络自己找出来的。出的时候，每一个向量是同时并行产生的，因此在运算速度上，自注意力会比循环神经网络。把自注意力用在图上面的时候，我们可以在计算注意力矩阵的时候，只计算有边相连的节点。

2024-10-07 16:48:40 1136

原创李宏毅 X 苹果书自注意力机制学习笔记上

这组向量的性质：数量有变化，序列长度不一。

2024-10-04 19:30:30 979

原创 DataWhale x南瓜书学习笔记 task04笔记

则（3.32）可重写为。

2024-09-27 21:30:40 317

原创 DataWhale X 南瓜书学习笔记 task03笔记

由（3.25）式，我们可知令每个样本属于其真实标记的概率越大越好。

2024-09-24 22:28:14 315

原创 Datawhale X 南瓜书 task02学习笔记

示例所对应的输出标记是在。

2024-09-21 22:32:56 615

原创 Datawhale X 南瓜书 task01学习笔记

研究关于“学习算法”(一类能从数据中学习出其背后潜在规律的算法)的一门学科PS:深度学习指的是：神经网络那一类学习算法，因此是机器学习的子集机器学习演变到现在，神经网络算法的效果是最好的，机器学习的其他算法能做的事，神经网络也能做，所以就把深度学习单列出来了。

2024-09-18 23:35:49 818

原创建模导论的最后一个视频笔记

如果还可以在缺点的后面写出未来发展方向是最好，可以用什么办法来降低缺点的影响。分问题之间的逻辑关系：问题二是问题一的细化，问题三是问题二的扩展。说明解题的每一个步骤用了什么，为什么用这个，怎么用。缺点：不要提特别严重的错误，避重就轻。明确问题类型：问题一是xxx优化问题。对大任务分解：就把解题步骤明确写出来。问题解答完毕之后必须画出来一个流程图。文献就是在问题重述中加重问题背景。1.5页就要有一个图。

2024-09-05 11:50:28 511

原创 Datawhale X李宏毅苹果书进阶 AI夏今营 task03学习笔记

batch normalization(批次标准化）batch normalization--Tarining直接改error surface的landscape，把山“铲平” 有时候尽管error surface是个“碗”，都不见得好train。如下图所示：w1,w2对loss的斜率差别很大，w1方向上斜率变化很小，w2方向上斜率变化很大，直接用固定的learning rate很难train，所以需要自学习的learning rate，这种比较高阶的optimization或者是这个task的

2024-09-03 23:34:52 1080

原创 Datawhale X李宏毅苹果书进阶 AI夏今营 task02学习笔记

所以 softmax 除了归一化，让 y′1、y′2 和y′3，变成 0 到 1 之间，和为 1 以外，它还会让大的值跟小的值的差距更大。因为 θ1 坡度小，根据式上图最后一个式子，θi1 这个参数上面算出来的梯度值都比较小，因为算出来的梯度值（loss）都比较小，所以算出来的 σit 就小，σit 小学习率就大。反过来，θ1 坡度大，所以计算出的梯度都比较大，σit 就比较大，在更新的时候，步伐（参数更新的量）就比较小。左上角圆圈所在的点有斜率的，所以可以通过梯度，一路往右下的地方“走”；

2024-08-31 23:48:53 1168

原创 Datawhale x李宏毅苹果书进阶 AI夏今营 task01学习笔记

（局部极小值，即是四周最低点，但不是全局最低点，四周都比这个点高，机器判断不出来这个点之外的有没有比这个更低点）（鞍点，即左右高，前后低，机器根据前后低判断这个不是最低点）（（由于网络复杂，其损失函数也是很复杂，只能估计，不能表示准确的）当所有的gi都为0则就是g=0即找到critical point判断判断H的特征值正local min（负local max（有正有负。

2024-08-27 23:51:57 1203

原创 Datawhale x李宏毅苹果书入门 AI夏令营 task03学习笔记

通过比较不同层数的model判断现在的model够不够大，如果高model比低model效果差，那么就是高model的optimization出现问题（56-layer的前20-layer和20-layer做一样的事，56层的后36层竟然没有帮助反而拖后腿。

2024-08-27 19:33:34 606

原创 Datawhale x李宏毅苹果书入门 AI夏令营 task02学习笔记

红色的曲线可以看作是一个常数再加上一群 Hard Sigmoid 函数。（Hard Sigmoid 函数的图线就是蓝色图线）黑色的可以由红色线无限逼近，当取的点够多，黑色的就可以用红色的表示，而红色的又可以由蓝色组成，则黑色的可以用蓝色的表示，即曲线可以由Hard Sigmoid 函数图像表示但是Hard Sigmoid 函数表示比较麻烦（Hard Sigmoid 函数是分段函数要写三个分式），所以用 Sigmoid 函数来逼近 Hard Sigmoid，（Hard Sigmoid 不一定非要换成Sigmo

2024-08-26 18:00:07 643

原创 Datawhale X 李宏毅苹果书入门 AI夏令营 task01学习笔记

梯度下降有一个很大的问题，不一定会找到真正最好的解，（即找到可以让损失最小的 w。但如果在梯度下降中，w0 是随机初始的位置，也很有可能走到 wT 这里，训练就停住了，无法再移动 w 的位置。右侧红点这个位置是真的可以让损失最小的地方，称为全局最小值（接下来反复进行刚才的操作，计算一下 w1 微分的结果，再决定现在要把 w1 移动多少，再移动到 w2，再继续反复做同样的操作，不断地移动 w 的位置，最后会停下来。），其左右两边都比这个地方的损失还要高一点，但是它不是整个误差表面上面的最低点。

2024-08-25 17:43:06 680

原创 Datawhale 数学建模导论国赛C学习笔记

数据集中所有数值的算术平均数。计算方式是将所有数据值加总后除以数据的总数量。均值反映了数据的中心趋势。[ \text{均值} = \frac{\sum_{i=1}^{n} x_i}{n} ]其中，( x_i ) 是数据值，( n ) 是数据数量。：数据集中最大的数据值，用于描述数据的上界。：数据集中最小的数据值，用于描述数据的下界。：将数据按升序排列后位于中间位置的数值。如果数据数量是偶数，中位数是中间两个数值的平均值。

2024-08-16 22:51:38 1108 1

原创 Datawhale 数学建模导论国赛B学习笔记

1)选取贪心策略，根据贪心策略从模型的所有定义域上的数据出发，筛选得出当前问题最优解，缩小问题规模；2)采用迭代方法，根据贪心策略对未求解部分循环求解，求出局部最优解集合，进一步缩小问题规模；3)将所有子问题的解的集合进行优化，使其满足原问题;4)综合所有解，验证结果。基于贪心算法的板式家具订单备料调度研究杨冰，魏新莉，胡孙跃，苏利江，杜辉模拟退火算法既简单又直观，以自然的优化过程为基础。退火过程包含了不同的调试参数，主要有:初始温度T0、冷却调度a候选解的产生、终止准则等。

2024-08-13 23:25:46 762

原创 Datawhale Al夏令营第四期大模型应用开发task1学习笔记

直接调用大模型API:将请求直接发送给相应的服务商，如openai，讯飞星火等，等待API返回大模型回复。等）则用于组织和排列这些输入和输出组件，以创建结构化的用户界面。初始投入后，长期运行成本相对固定，避免了按使用量付费的不确定性。输入（文本框，按钮，下拉框，滑块，复选框，文件上传，等等）不需要关心模型的a.维护和更新，服务商通常会负责这些工作。需要强大的计算a.资源，如高性能GPU，初期投资成本较高。需要稳定的网络a锽斯.连接，可能会受到网络延迟的影响。公共组件（用户信息存储，帮助，以及输出html）

2024-08-11 22:55:27 952

weixin_75033552的博客