深度学习
文章平均质量分 52
thisissally
这个作者很懒,什么都没留下…
展开
-
深度学习的步骤(以多层感知机为例)
以多层感知机为例,在明晰步骤的同时熟悉代码确定batch_size,根据batch_size加载数据batch_size = 256train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)初始化模型参数:各层的单元数、每层的权重和偏置矩阵、激活函数num_inputs, num_outputs, num_hiddens = 784, 10, 256W1 = nn.Parameter(torch.randn(原创 2021-10-28 18:33:19 · 410 阅读 · 0 评论 -
深度学习中的数值稳定性
一、问题小于1的梯度连乘越来越小,大于1的梯度连乘越来越大梯度爆炸例如选取Relu函数作为激活函数,w较大,则梯度大梯度消失例如选择sigmoid函数作为激活函数,其到数在0-0.2内,因此乘积更小。二、How to 让数据更稳定?让梯度在合理范围内模型:Resnet、LSTM归一化:梯度归一化、梯度裁剪合理的权重初始和激活函数(1)合理初始化权重的原因:因为梯度更新主要受权重w和激活函数的影响,而权重在距离最优解远的地方等高线平面崎岖,loss复杂,越靠近最优原创 2021-10-10 10:32:56 · 418 阅读 · 0 评论 -
深度学习中的模型选择
一、模型选择要考虑的维度(一)模型容量参数的个数参数的选择范围(二)数据复杂度样本个数样本的元素个数(RGB & 灰度)时间、空间结构多样性二、模型选择中会遇到的问题:过拟合与欠拟合,How to solve?权重衰退和dropout本质都是正则化,让隐藏层的神经元个数减少(因为部分输出为0)。实际中,权重衰退对复杂模型的效果不显著,但是dropout效果比较显著,因此更常用。两种方法可以一起用。(一)权重衰退原理:限制模型参数的选择范围以控制模型的容量。由于模型中原创 2021-10-10 09:59:06 · 1248 阅读 · 0 评论 -
多层感知机
多层感知机(MLP)是一种典型的神经网络一、结构h1=sigma(w1x+b1) 隐藏层1h2=sigma(w2x+b2) 隐藏层2h3=w3x+b3 输出层超参数:层数、层大小二、MLP和SVM的区别对于大数据量的问题,一般都会有神经网络解决,因为神经网络可以灵活编程;而SVM基于核,超参数设置单一,并且适用于小数据问题。...原创 2021-10-10 09:35:30 · 638 阅读 · 0 评论 -
dl神经网络的实质
神经网络的输入是高维数据,输出是相对低维的数据,因此神经网络的实质是压缩。压缩的方式大致有三种,推荐慢慢压缩。慢慢压缩,也可以慢慢扩一下纬度再慢慢压缩,讲究循序渐进。一般网络越深,效果越好。直接一下子扩大维度再压缩,隐藏层的神经元很多,但是网络很浅,一般效果都很不好。因为容易造成信息缺失。但是CNN也属于这种类型,他有有效的方式避免过拟合。...原创 2021-10-09 23:32:38 · 187 阅读 · 0 评论 -
李宏毅机器学习2021——GPT
自监督学习的典型模型,除了BERT,还有GPT。GPT的任务本质是预测得到一个seq的一部分,预测下一个字(predict next token)。相当于Transformer的decoder01-输入begin of sequence,输出第一个字02-输入BOS和第一个字,输出第二个字重复以上步骤注:GPT的模型非常大,微调参数都能耗费很大的计算量。...原创 2021-09-18 20:05:38 · 783 阅读 · 0 评论 -
李宏毅机器学习2021——Bert
一、BERT介绍学习类型:Bert属于self-surprised learning,或者semi-surprisedlearning。因为数据无标签,需要自己想办法打标签,然后做监督学习。也就是说,x既是输入,也用来打标签。BERT内部,是transformer的encoder,也就是self-attention——norm——FC——norm的基础上➕residual➕muti-head,输入多长,输出也多长。二、BERT可以解决的两类任务(一)填空题用mask或者random的方法原创 2021-09-18 00:04:33 · 702 阅读 · 0 评论 -
李宏毅机器学习——Transformer
Transformer属于seq2seq模型,解决输入时序列,输出也是序列,并且输出长度由机器自己决定的问题。一、seq2seq的应用语音识别:输入声音讯号,输出对应的文字机器翻译:输入一段英文,输出对应的一段中文语音翻译:将听到的一段声英语,翻译成中文字语音合成:输入一段文字,输出对应的语种声音翻译聊天机器人提取文章的摘要对于不同的任务,应该客制化对应的seq2seq模型,这样效果更好。二、transfomer的架构input——encoder(编译)——decoder(解原创 2021-09-15 20:56:46 · 2510 阅读 · 0 评论 -
李宏毅机器学习——Self-attention
一、vector set形式的输入文字输入、声音信号处理、图、分子结构二、输出的形式1、每一个向量都有一个对应的一个label2、完整的序列,对应一个labele.g.Sentiment Analysis3、让机器自己决定输出多少个labels【seq2seq】e.g.机器翻译、语音识别三、Sequence Labeling(输入跟输出数目一样多的状况)初步想法:将每个seq都放到fully-connected network中,输出问题:每个vec同等对待,难以区分词性解决:联系上原创 2021-09-14 17:18:35 · 301 阅读 · 0 评论 -
李宏毅机器学习——CNN
一、基本概念pixel:像素,图片的基本组成单位neuron:神经元,等同于一个classifier。每一层就是一个layer,包含一个neuron。filter:每一个filter就是一个neuron,里面包含的值都是weight参数,是通过梯度下降训练出来的。根据用于分类的特征个数确定filter的个数。filter的维度与image的维度保持一致,image是黑白,filter就是matrix;image是彩色,由RGB组成,则filter就是立方体。tensor:高维matrix二、C原创 2021-09-04 20:53:06 · 285 阅读 · 0 评论 -
李宏毅机器学习2021——Optimization(最优化)
一、The problem in optimizationgradient趋于0,到达critical point(临界点)(一)两种情况卡在local minima(局部最小),并不是很常见卡在saddle point(鞍点,微分为0)(二)鉴别两种情况by Taylor Series二、How to get optimization?(一)单个参数(单维)针对一个w在update过程中卡住的问题,可以尝试的改进思路:01-每次update不取全部的样本,而是取一定量的batch原创 2021-08-24 09:58:26 · 511 阅读 · 0 评论 -
李宏毅机器学习——深度学习概述
一、深度学习的适用场景图像分类、语音识别等存在潜意识行为的场景中二、深度学习的步骤Step1:神经网络(Neural network)Step2:模型评估(Goodness of function)Step3:选择最优函数(Pick best function)三、神经网络的构造神经网络是神经元的连接,神经元实际上是一个函数,每个函数中都包含了权重和偏差,所有神经元的权重和偏差共同组成了神经网络的参数。(一)神经元的连接方式1.完全连接前馈神经网络(Fully Connect Feedfo原创 2021-08-22 16:24:15 · 164 阅读 · 0 评论