
李宏毅机器学习深度学习
文章平均质量分 73
东瓶西镜999
这个作者很懒,什么都没留下…
展开
-
2022最新版-李宏毅机器学习深度学习课程-P49 GPT的野望
使用MASK-attention,不断预测“下一个token”。可以用GPT生成文章。原创 2023-11-21 16:46:20 · 948 阅读 · 0 评论 -
2022最新版-李宏毅机器学习深度学习课程-P51 BERT的各种变体
但是有一个缺点,就是其左边lstm进行编码的时候只能看到左边的token,右边的lstm进行编码的时候,只能看到右边的token。看到的句子是不完整的,这就。BERT的一个太好的点就是其不善于处理生成任务,语言模型往往是给定左边的token,之后去预测右边的token,但是BERT是双向的模型,在生成任务中只能看到左边的token,是无法看到右边的token的,所以效果比较一般,但是随机的进行mask往往是会产生不好的效果的,有时候mask掉的是一个短语中的一个token,这样的话是不好出比较好的效果的。原创 2023-11-21 16:05:53 · 868 阅读 · 0 评论 -
2022最新版-李宏毅机器学习深度学习课程-P50 BERT的预训练和微调
模型输入无标签文本(Text without annotation),通过消耗大量计算资源得到一个可以读懂文本的模型,在遇到有监督的任务是即可。最具代表性是BERT,预训练模型现在命名基本上是源自于动画片《芝麻街》。芝麻街人物。原创 2023-11-10 23:23:43 · 1600 阅读 · 0 评论 -
2022最新版-李宏毅机器学习深度学习课程-P46 自监督学习Self-supervised Learning(BERT)
事实上,在训练中,会将文章截成片段输入BERT进行训练,而不是使用整篇文章,避免距离过长的问题。这样,BERT就可以知道,这两个句子是不同的句子。但是,BERT可以被应用在其他的任务【真正想要应用的任务】上,可能与“填空”并无关系甚至完全不同。BERT是一个transformer的Encoder,BERT可以输入一行向量,然后输出另一行向量,输出的长度与输入的长度相同。为了测试Self-supervised学习的能力,通常,你会在一个任务集上测试它的准确性,取其平均值得到总分。挑选的两个句子是相连的。原创 2023-11-08 16:14:23 · 1648 阅读 · 2 评论 -
2022最新版-李宏毅机器学习深度学习课程-P34 自注意力机制类别总结
下图中,纵轴的LRA score数值越大,网络表现越好;横轴表示每秒可以处理多少sequence,越往右速度越快;圈圈越大,代表用到的memory越多(计算量越大)。原创 2023-11-08 16:03:51 · 624 阅读 · 2 评论 -
2022最新版-李宏毅机器学习深度学习课程-P32 Transformer
2.**residual connection:**把这个vector加上它的input作为output【残差网络】3.**layer normalization:**对同一个feature,同一个example,不同的dimension,去计算mean跟standard deviation4.FC network这边,也有residual的架构5.把residual的结果,再做一次得到的输出,才是residual network裡面,一个block的输出。原创 2023-10-31 14:24:21 · 808 阅读 · 3 评论 -
2022最新版-李宏毅机器学习深度学习课程-P26 自注意力机制
输入任意长度个向量进行处理。原创 2023-10-31 12:13:24 · 702 阅读 · 1 评论 -
2022最新版-李宏毅机器学习深度学习课程-P29 RNN-2
突然一下升高是因为从右到左碰到陡峭的地方梯度一下变大了,所以弹回去了。原作者在训练时加上了小技巧——clipping:设置一个峰值,若超过则等于该峰值。当W>1时,微小的变化会引起很大的变化;当w原创 2023-10-19 21:52:58 · 795 阅读 · 0 评论 -
2022最新版-李宏毅机器学习深度学习课程-P28 Recurrent Neural Network
应用场景:填满信息把每个单词表示成一个向量的方法:独特向量还有其他方法,比如:Word hashing 单词哈希输入:单词输出:该单词属于哪一类的概率分布由于输入是文字序列,这就产生了一个问题是到达还是离开?隐藏层的输出会被存储在内存中,内存能被视为另一个输入。改变序列的顺序会改变输出。RNN的网络结构目前已提出的两个网络及区别双向RNN它与传统的循环神经网络(RNN)相比有一个重要的区别:它在每个时间步上包含两个方向的循环连接,一个从过去到未来(正向),另一个从未来到过去(逆向)原创 2023-10-18 17:32:35 · 571 阅读 · 0 评论 -
2022最新版-李宏毅机器学习深度学习课程-P25 Spacial Transformer Layer
CNN并不能够处理影像放大缩小,或者是旋转的问题。所以在做影像辨识的时候,往往都要做 Data Augmentation,把你的训练数据截一小块出来放大缩小、把图片旋转,CNN 才会做到好的结果。有一个架构叫 spacial Transformer Layer可以处理。设计一个层,需要的地方=1,不要的地方=0经过一个NN,FP发生平移还可以放大或缩小,只需要改变参数旋转一共需要6个参数当6个参数全部设定的是整数时,结果比较好处理但如果是小数时呢?通过最终答案的四舍五入得到结果。原创 2023-10-17 15:47:14 · 440 阅读 · 0 评论 -
2022最新版-李宏毅机器学习深度学习课程-P23 为什么用了验证集结果还是过拟合
把三个模型导出的最小损失公式看成一个集合,现在要做的就是。在这个集合中找到某个h(此处可以视为训练)这个片段可以从理论上证明这一点。,使得在验证集上的损失最低。以上整个挑选模型的过程。,理想和现实会有差距。,理想和现实会有差距。也可以想象为一种训练。抽到不好的训练数据时。当拿到的验证集不好时。原创 2023-10-15 21:41:16 · 871 阅读 · 0 评论 -
2022最新版-李宏毅机器学习深度学习课程-P22 卷积神经网络CNN
感受野可以重叠;同一感受野可以通过不同的权重典型设置分享的权重其实就是filter卷积 = 不同的filter扫过整个矩阵 = 不同的感受野公用权重参数每个棋子有48个channel,代表48个状态CNN为啥能用于下围棋?因为他们的这两点特征相似由于棋子不能省略,用于围棋中不能加入池化层更多应用:语音、自然语音处理。。。原创 2023-10-15 21:12:45 · 633 阅读 · 0 评论 -
2022最新版-李宏毅机器学习深度学习课程-P16 Loss可能影响网络训练失败&softmax与sigmoid
分类的例子在前几讲中已详细分析,此处略过。原创 2023-10-13 13:35:31 · 231 阅读 · 0 评论 -
2022最新版-李宏毅机器学习深度学习课程-P15 自动调整学习速率(learning rate)
当loss函数表面崎岖不平时,可以采用这招。 被困住时不一定是小梯度,还有可能在峡谷两端来回跳跃,下不去了当误差表面是凸函数(可以想成长轴很大的椭圆)时,可能在峡谷两端交替,再次减小学习率时,可能update很多次但走的贼慢,很难到达目标。不同的状态需要不同的学习率,所以引入Σ与前面的所有梯度有关(注意只与梯度大小有关)小梯度时大步走,大梯度时小步走再引入α,控制比例(被以前梯度影响的多少)经常用的Adam优化器,就是采用了RMSProp和动量的结合动量是与梯度方向有关的,但RMSProp只与其大小有关,所原创 2023-10-13 13:12:40 · 209 阅读 · 0 评论 -
2022最新版-李宏毅机器学习深度学习课程-P14 批次(batch)与动量(momentum)
所以我们就拥有了一个超参数需要调整:batchsize!下表是他们的优劣现在需要选择合适的batchsize,兼顾两者优点。原创 2023-10-12 14:57:28 · 278 阅读 · 0 评论 -
2022最新版-李宏毅机器学习深度学习课程-P13 局部最小值与鞍点
局部最小值?鞍点?原创 2023-10-11 13:14:15 · 275 阅读 · 0 评论 -
2022最新版-李宏毅机器学习深度学习课程-P12 机器学习任务攻略
优化问题(训练集损失突然变大)值得注意,它不是过拟合(训练集损失小,但测试集大)。模型偏差在于,最小的值根本不在这个模型范围内,此时需要更复杂的模型去寻找最优解。原创 2023-10-10 16:32:10 · 150 阅读 · 0 评论 -
2022最新版-李宏毅机器学习深度学习课程-P11逻辑回归
如果 逻辑回归+平方差的损失公式 ,会出现以下问题。求导后出现导数=0时有两种情况,此时如果不是正确的那类,会卡死!!同时,在错误0两侧时的步进会非常小,效率很慢。当距离目标远的时候,微分还是很小,这样步进会非常慢。还可能会出现参数卡死的情况(微分=0)。原创 2023-09-26 17:20:27 · 82 阅读 · 0 评论 -
2022最新版-李宏毅机器学习深度学习课程-P10神奇宝贝分类
其中假设的概率分布可以人为决定原创 2023-09-26 16:25:07 · 85 阅读 · 0 评论 -
2022最新版-李宏毅机器学习深度学习课程-P9预测神奇宝贝宝可梦
回归问题:预测出的结果是连续值。原创 2023-09-25 20:30:40 · 135 阅读 · 0 评论 -
2022最新版-李宏毅机器学习深度学习课程-P8反向传播
一个计算梯度的方法,一层层传递下来的。原创 2023-09-25 15:09:55 · 112 阅读 · 0 评论 -
2022最新版-李宏毅机器学习深度学习课程-P4深度学习简介
深度学习的简介。为什么越深效果越好?为什么神经网络是变深而不是变胖?下次课再说!原创 2023-09-12 17:11:15 · 153 阅读 · 0 评论 -
2022最新版-李宏毅机器学习深度学习课程-P3深度学习基本概念
上述的 y = wx + b线性模型x和y的关系是一条直线,即使改变w和b的值,即改变线性模型的斜率和与y轴的交叉点位置,仅仅代表y的值与x的值成正比,永远无法拟合更复杂的关系,因此我们需要一个。而我们可以用以下方式来表达更复杂的模型:连续曲线、分段线性曲线(Piecewise Linear Curves)、Sigmoid。1. 连续曲线最有弹性的模型就是连续曲线,因为它描述复杂问题最为精准。用线段去逼近平滑的曲线,分段线性曲线模型定义。原创 2023-08-23 19:00:34 · 166 阅读 · 0 评论 -
2022最新版-李宏毅机器学习深度学习课程-P2机器学习基本概念上
一、一、1. Function with Unknown Parameters(含未知参数的函数)根据domain知识,猜测一个能完成任务并带有未知参数的函数。设y为要预测的最终结果,x1为输入的前一天观看总人数,b与w均属于刚开始猜测未知参数需要人们对于问题的本质了解,也就是需要Domain knowledge(领域知识)。一开始的猜测不一定是对的,需要后续的修正。总之先假设y = b+w*x1,b与w是未知的,称为这个带有Unknown的Parameter的Function,称之为。原创 2023-08-20 21:46:31 · 150 阅读 · 0 评论 -
2022最新版-李宏毅机器学习深度学习课程-课程大纲
机器学习可以应用到很多场景中,例如语音识别、图像识别、AI智能下棋等。等。之后通过机器学习寻找一种将输入进行转化为你想要的输出结果的方法,经过这个方法的计算之后得到最终的输出信息,例如:这段声音信号所说的内容、图片中属于什么动物、棋子下一步最佳应该落到什么位置等。这个就是机器学习需要完成的工作。根据不同的任务从而选择不同函数方法的不同,机器学习最常用的是regression(回归)和classification(分类)。模型的输出为,一般应用于预测房价、温度、空气指数等。原创 2023-08-13 19:31:27 · 534 阅读 · 0 评论