不爱白日梦-CSDN博客

原创 [笔记] 李宏毅2021春机器学习课程（七）自监督式学习

self-supervised Learning芝麻街：340 millon的参数，模型巨大

2021-11-24 20:21:40 569

原创李宏毅2021春机器学习课程 GAN笔记

https://www.bilibili.com/video/BV1Wv411h7kN?p=40Network做生成器的特别之处在于：有一个Z ：random variable是不固定的，随机生成的是从分布中采样来的，distribution 一般比较简单，比如高斯分布最后得到的output是复杂的 distribution为什么输出需要是一个分布因为多种决策是同时存在在训练资料里的Network 需要做到两面讨好为了解决：输出一个概率当任务需要一点”创造力“同样的输入，有多种不同可能

2021-11-20 16:21:43 602

原创李宏毅2021春机器学习课程 Transformer

属于Seq2Seq的modelseq2seqQA（Question-Answer）问题可以用seq2seq的模型来套（瑞士军刀）但客制化往往可以得到更好的结果（会针对问题本身的特点）14年9月提出encoder：一个block可以是好几个层的事情normalization：把输入的向量计算 mean/标准差batch norm：对同一个dimension不同的feature，不同的examplelayer norm：对同一个feature，同一个example，不同的di

2021-11-14 17:09:36 2093

原创李宏毅2021春机器学习课程 self-Attention

输入：一堆向量（语音、文字、图像、生物结构等）输出：情况1.不同担心长度的问题，每一个向量都有一个对应的label情况2. 每一个句子只有一个输出情感分析情况3.自己决定输出的数目seq2seq情况1 ：需要联系上下文：设window不仅需要较大的计算量。而且容易过拟合。如何让更好的考虑整个sequence的资讯self-attention：处理整个长度FC：专注某一部分其它α和a1的关联程度计算关联性根据α的分数，抽取重要的资讯（通过v）：b 1-4时同时被

2021-11-10 12:08:30 831

原创李宏毅2021春机器学习课程CNN

convolution1.识别物体，抓patterns，respective field2.same patterns appear in different regions共享参数 parameter share(不同 ) ->filter1+2 = convolutional layer解释2 ：feature map随着层数的增加，感受野也会增加Poolingmax 、average等，下采样应用除了图像分类，还可以下围棋，看成分类问题影像问题参数共享但是CNN

2021-11-07 20:09:34 458

原创李宏毅2021春机器学习课程笔记--类神经网络（五）

Batch normalization将error surface的山铲平change landscape通过改变w，改变y，进而改变e，而对于不同量级的x，会产生不同的Δ，所以进行归一化：feature normalization之后，样本之间的关系由独立变成彼此关联。样本数取决于batchtesting = inferenceμ σ 通过batch算出，test时pytorch会保留训练时的μ和sigma这样测试时不必取到所有batch才能预测internal covariate

2021-11-06 21:51:15 504

原创李宏毅2021春机器学习课程笔记--类神经网络（四）

视频链接：https://www.bilibili.com/video/BV1Wv411h7kN?p=14&spm_id_from=pageDriver如何分类分类与回归class 不能单纯根据123来分类，会有关系远近的误导，一般采用one-hot。（单位向量）a1/a2/a3 ×不同的weight，产生不同组的数字对于分类，y为向量，且最后常用soft-maxyhat只有0/1 而y’是任何值，所以进行一个归一化，变成概率，且会拉远数据之间的距离，更容易分类当只有两类时，等价

2021-11-04 22:54:44 65

原创李宏毅2021春机器学习课程笔记--类神经网络（三）

视频链接： https://www.bilibili.com/video/BV1Wv411h7kN?p=13自动调整学习率 learning ratecritical point 有时不是训练时的最大障碍->当loss不再下降时， gradient真的很小吗？下图在 error surface反复横跳对于convex（等高线为椭圆）的error surface，设置大/小的学习率的结果 -无法靠近critical point在某一方向比较平坦，希望learning rate大，比较陡

2021-11-04 22:26:55 156

原创李宏毅2021春机器学习笔记--类神经网络

Batch and Momentum–对抗saddle point/local minimabatch size为什么要用batch：决定了看几笔资料update进行更新[蓄力时间长短]考虑平行运算：耗费时间差距很大小的batch size 随机性强 sharp minima不会困住，泛化性好Momentum一般的梯度下降法：加入Momentum：不是只往momentum的反方向移动，而是加上前一步移动的方向：...

2021-10-24 11:17:41 889

原创李宏毅2021春机器学习课程笔记 ---类神经网络训练不起来怎么办

局部最小值(local minima)与鞍点(saddle point)如果卡在local minima：no way 2 go如果卡在saddle point ：escape泰勒展开近似：根据海瑟矩阵判断（二阶导）vTHv>0 == positive matrix ==eigen value（特征值）大于0 [二次型]举例：y=w1w2xx=1,y=1特征值有正有负，代表鞍点鞍点可以指出update的方向-H 负的特征值...

2021-10-24 10:39:14 1520

原创李宏毅2021春机器学习笔记

李宏毅2021春机器学习笔记 ——P10 第二节机器学习任务攻略step 1 ：检查training dataModels BiasOptimization issuestep2: training loss小，检查testing dataoverfittingdismatchstep 1 ：检查training dataModels Bias模型过于简单，无法找到最小值。可以加入更让多特征/更多神经元/深度学习，增加model弹性Optimization issuegradient d

2021-10-18 22:21:18 53

原创 Tensorflow笔记（二）

TensorFlow 深度学习任何深度学习网络都由四个重要部分组成：数据集、定义模型（网络结构）、训练/学习和预测/评估。读取数据3 种方式读取数据：1.通过feed_dict传递数据；2.从文件中读取数据；3.使用预加载的数据；1.通过feed_dict传递数据运行每个步骤时会使用run()或者eval()函数调用中的feed_dict()参数来提供数据。是在占位符的帮助下完成的。允许传递numpy数组数据y = tf.placeholder(tf.float32)x = tf.p

2021-07-14 11:01:14 96

原创 Tensorflow笔记（一）

程序结构图的定义及执行（程序独立的两个部分）计算图：包含节点和边的网络。①定义所有要使用的数据，即张量（tensor）对象（常量、变量、占位符）②定义执行的计算，即运算操作对象（Operation Object，OP）每个节点可以有零个或多个输入，但只有一个输出。网络中的节点表示对象（张量和运算操作），边表示运算操作之间流动的张量。计算图定义神经网络的蓝图，但其中的张量没有相关的数值。计算图的执行：会话对象实现。会话对象封装了评估张量和操作对象的环境。真正实现运算操作，将信息从网络一层

2021-07-10 13:37:58 65

weixin_43903148的博客