![](https://img-blog.csdnimg.cn/direct/7b72e1f3392343be980ea2db5bbf8956.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习与深度学习
文章平均质量分 73
以个人笔记为索引,结合台大教授李宏毅的课程,进行系统的机器学习和深度学习的学习;并且在中间穿插对机器学习和深度学习实战的代码教学内容
靴子学长
不做流水线的鸭子,做农村下笨鸡蛋的鸡
展开
-
nlp课设 - 基于BERT 的情感分类
自注意力多头自注意力Transformer (双向)原创 2024-05-08 19:44:18 · 918 阅读 · 0 评论 -
机器学习和深度学习-- 李宏毅(笔记与个人理解)Day22
由于是文字接龙,所以无法考虑右边的 info。怀疑begin那里没有做 Norm是bug。仔细讲讲Residual 的过程?原创 2024-04-24 14:45:14 · 364 阅读 · 0 评论 -
机器学习和深度学习 -- 李宏毅(笔记与个人理解)Day 23
由于self - attention 一般都是在big model 的一部分,所以,一般不会对模型造成决定性的影响, 只有当model 的输入较长的时候, 例如图中: 图片处理 : 256 * 256 的输入,self-attention 就会得到一个 256 * 256 的平方的 矩阵;// todo 这是因为自注意力机制的目的是计算序列中每个元素对于序列中每个其他元素的注意力得分,所以我们需要一个 N×N 的矩阵来表示这些得分。和你做函数的代换法的时候 用 u 代表变量 x 的行为没什么两样啦。原创 2024-04-22 01:33:46 · 2063 阅读 · 0 评论 -
机器学习和深度学习-- 李宏毅(笔记于个人理解)Day 21
假如我们现在有一个需要读完全部句子才能解的问题, 那么red window 就需要变得是最大的(最长的句子);其实这里大家有没有想过,这个玩意儿就是个卷积网络CNN,所谓的window 就是卷积核。hand - crafted (s to s 的规则使得不会超过位置信息)这里感觉不到数学的巧妙,只是感到了工程的流水线的简洁和高效。比较接近的话,那么我们就说这a1 和a2 比较像。你也可以不做softmax(Relu 也行)b1 --b4 是同时产生的。学完自适应 再回来看看。原创 2024-04-19 19:10:32 · 721 阅读 · 0 评论 -
关于ResNet的假说
最核心的思想就是 恒等映射吧。原创 2024-04-19 17:49:11 · 386 阅读 · 0 评论 -
隐马尔可夫模型(HMM)硬啃西瓜书
好好好 势函数的概念真尼玛抽象–> 可以简单理解为一种考虑了相邻团的依赖的团的概率分布,然后后面那个Z 就是归一化,保证了这些势函数(自己定义出来的抽象玩意儿)之间的和等于1;后面团的概念和离散数学里的一个玩意儿挺像的;多读两遍吧应该是能读懂的,小伙子加油;(上面那个应该是*号 因为fine的定义就是这张关联的依赖)如果我们尝试把A’∪B’当作样本空间的一个划分的话确实会得到上面的式子;条件独立:有了某个条件A就B独立(原来独不独立不知道哈,也不关心)另外,这玩意儿读起来是真的爽啊!然后三个基本问题:;原创 2024-04-19 16:27:45 · 477 阅读 · 0 评论 -
机器学习与深度学习 --李宏毅(笔记与个人理解)Day 20
层级LSTM(Hierarchical LSTM)模型通过构建不同层级的LSTM结构来处理文本数据,其中每个层级对应文本的不同组成部分(如词、句子和段落)。这种层级模型能在不同层次上捕捉文本的组合性,如单词间、句子间的关系,从而在重构时保持文本的语义、句法和篇章的连贯性。使用LSTM做句法解析时,如果输入句子有语法错误,如缺少括号,这种错误通常不会直接影响LSTM模型的解析过程,因为LSTM并不是基于规则的解析器,而是基于学习的模型。在实际的学习(training)过程中是如何工作的?原创 2024-04-17 18:50:56 · 1661 阅读 · 0 评论 -
机器学习和深度学习 -- 李宏毅(笔记与个人理解)Day19
和RNN比较起来, 强化了对整体序列的记忆;并且可以 认为的通过lable 训练出需要记忆的重点序列。需要注意的一点是 forget gate 的取值 ,应该交 remember gate 会好一些。是普通的network 也是两次激活函数吗?来吧 ,整个LSTM 最重要的ppt ,走动这个ppt 你就懂了LSTM的工作原理。这样应该可以,但是如果是一个很长的段落呢?图中的+ 代表我的输入;好吧导致我停更新两天的DL,我去如坐针毡啊。正常的输入和三个控制门讯号的输入。考量时间顺序的那个kaggle!原创 2024-04-17 14:53:24 · 863 阅读 · 0 评论 -
机器学习和深度学习 --李宏毅(笔记与个人理解)Day 18
这样也能理解为什么老师认为max pooling 可以用来解,因为随着参数的变化,max的值一定会有变化,则可以进行梯度;这张图我自己又加了一些笔记, 这里说的 是全连接的工作原理;因为单纯的cNN无法做到scaling(放大)and rotation(转),所以我们引入;好了,基本学会了,就是数字图像处理学的那点东西,就是乘一个变换矩阵就好了。固定了两个参数, 有点focus 的味道, 因为无法做旋转嘛智能做缩放。ok 以上说的三点就是它的特性了,应该没有哪一个是不懂的吧~详情请参照 《数字图像处理》原创 2024-04-14 13:42:59 · 534 阅读 · 0 评论 -
机器学习和深度学习--李宏毅(笔记与个人理解)Day15
霍夫丁不等式(Hoeffding’s Inequality)是概率论中的一个重要结果,它提供了一种评估独立随机变量之和与其期望值偏差的概率的方法。具体地,如果有一组独立的随机变量,每个随机变量的取值范围都是有限的,那么这些随机变量之和的实际观察值与其期望值的偏差超过某个界限的概率是非常小的。根据霍夫丁不等式,如果在足够大的训练集上,算法的误差已经非常小,那么我们有很强的信心认为,在未知的测试集上,算法的误差也会控制在一个很小的范围内。连续的时候 用VC-dimention 来算模型的 复杂程度。原创 2024-04-14 12:27:25 · 588 阅读 · 0 评论 -
机器学习和深度学习 -- 李宏毅(笔记与个人理解)Day 13
如果只用当前的梯度值来更新学习率,那么任何较大的梯度值都可能会导致很大的学习率变化,这可能会使得学习过程不稳定。通过使用所有过去梯度的平方的平均值,我们可以使学习率的变化更加平滑,因为这个值不会因为个别极端的梯度值而发生剧烈波动。woc 我发现这两个是差不多的思想啊,你把上面那个正则化的东西用Gradient做出来。时候的学习率,但是由图我们可以知道有时候同一个参数我们也希望起有变化率的不同取值。好吧完全不一样,但是我又不知道这个会不会对于我的……以及这个式子和之前讲的那个正则化是不是一样的呢?原创 2024-04-12 19:38:28 · 481 阅读 · 0 评论 -
机器学习和深度学习--李宏毅(笔记与个人理解)Day17
那么我们自然而然的认为这个厚度为64的feature map 叠起来的厚吐司 也是一个64channel 的图像;迭代为原始图像,那么下一次进行卷积的时候我们就需要64个厚度为64的fitter,也就是下面的两个64 的不同含义~ ok,打完收工。就拿上面的图片举例子,extremely case 我们取一维向量来表示(铺开),这样就会丢失一些空间的信息,例如绿色的格子和蓝色的某个格子其实是垂直的,仅仅相差一个垂直距离,但是展开为一根棍就很难找到这种关联。Flatten 拉直。原创 2024-04-13 20:59:38 · 1392 阅读 · 1 评论 -
机器学习和深度学习-- 李宏毅(笔记与个人理解)Day 14
当使用非线性激活函数(如Sigmoid或Tanh)时,在输入值非常大或非常小的情况下,这些激活函数的梯度会接近于零。因此,如果在MSE损失函数的情况下,预测值与目标值之间的差异很大,经过激活函数的反向传播会产生非常小的梯度。但是Cross Entropy 两个差距很大的时候整体乘积并不会无限大 — 因为本质上描述的是两个概率分布的差异。哦 今天刚学的 ,KL散度 ,看来cross-entropy 和KL散度是等价的咯~ 我感觉我的直觉没错。这里MSE离得很远的时候会梯度消失,致使训练变得困难;原创 2024-04-12 19:34:59 · 538 阅读 · 0 评论 -
机器学习和深度学习--李宏毅(笔记与个人理解)Day11-12
换句话说,如果我们发现了一个负特征值λ 和相应的特征向量u,我们可以通过沿着 u 的方向更新 θ 来降低损失函数的值。引入高维空间的观点,解决local minima的问题:我们很少遇到local minima;例如,如果你有100个batch,那么在完成一个epoch后,每个参数会被更新100次。知道学到这里想到什么嘛……和对应的特征值 λ定义为满足下列关系的向量和标量:Hu=λu。这里举了两个极端的例子,也是我们常见的学习方法:取极限看效果。有没有感觉这种思想还挺常见的,用来做局部最小值的优化的。原创 2024-04-11 20:27:02 · 2124 阅读 · 0 评论 -
机器学习和深度学习-- 李宏毅(笔记与个人理解)Day10
这节课总体听下来比较轻松,二倍速一路刷过去了,看看明天的课还会不会这么轻松吧哈哈,期待,今天实操了一下线性回归的东西 还不错有意思~为什么over fitting 留到下下周哦~~ 期待。原创 2024-04-10 21:42:36 · 364 阅读 · 0 评论 -
机器学习和深度学习--李宏毅(笔记与个人理解)Day9
(这里又想到学c的时候学到的 哈夫曼树,细节上还是有很大不同,由于它用到了树的结构,并不能完全灵活的得到最小编码举例: asdfgh 六个字母,编码出来的最长编码有1001 等,如果直接进行编码 则0 1 10 11 100 101 110,最长仅有3);(Q(x)),那么由于Entropy的定义, 是p(x)分布下的最小长度的编码,就不可能出现比这个编码更小的数,所以交叉熵越小,说明我们越接近p(x)分布下的最小长度的编码。(也就解释了,机器学习分类算法中,我们总是最小化交叉熵的之前的疑问)原创 2024-04-10 09:14:32 · 860 阅读 · 1 评论 -
机器学习和深度学习-- 李宏毅(笔记与个人理解)Day8
大于1 的点在我们这个模型里被认为是不应该存在的,超过了我的值域(ps:刚刚小憩了半个小时,真管用哇,本来想不通的东西困得不行还头疼,一下子想清楚啦哈哈)今天上了一整天的课, 本来实在是更新不动了,但是看到《剑来》更新了,想一想这本书里面一直强调的成功的feature – 心性,嗯心性坚毅就好!xdm 绷不住了,学到这里的时候图书馆的朗读亭里有小姐姐唱歌了 爱的回归线 哈哈哈哈哈哈哈哈哈哈哈(那个朗读亭隔音不好,很多同学以为那个地方可以隔音),唱的还挺好听的;g(x) 是自己学出来的一个function;原创 2024-04-07 20:56:45 · 701 阅读 · 0 评论 -
机器学习和深度学习 -- 李宏毅(笔记与个人理解1-6)
课程内容。原创 2024-04-05 19:52:27 · 1341 阅读 · 0 评论 -
机器学习和深度学习--李宏毅 (笔记与个人理解)Day7
个人感觉这里用多项式进行复杂函数的逼近,有一点像泰勒展开(泰勒级数)不同的点在于,这里的w 是彼此无关的,然而泰勒级数的展开式和展开点相关性极强。这里用线性代数的方法可以直接求 ,最速下降法(Gradient Descent)更有普遍性和计算机领域的意义。注意这里的做法看似简单, 但是这种思想却是贯穿机器学习始末的:用简单的抽象的函数来表示我需要解决的问题。注意: 用下标来表示某一个完整的物体的某一个部分,例如:x 表示妙蛙种子;注意:这里用上标来表示一个完整的个体的编号;how smooth?原创 2024-04-06 15:24:15 · 849 阅读 · 0 评论 -
机器学习和深度学习--李宏毅 (笔记与个人理解)Day 16
这里说dl 会提供一个足够大的模型, 来使得Dall loss 足够小,但是从这里没有看出来deepLearning 更好呀,这不是还是需要一个big training data 嘛。同样的function 参数较少 – 以为着较少的over fitting and less training data。最近在减重, 昨天跑了个一公里,然后今天上午又打了个篮球,真是老胳膊老腿了,运动完给我困得不行。Review 见前面的笔记。原创 2024-04-14 12:17:22 · 254 阅读 · 0 评论