深度学习
文章平均质量分 60
深度学习的知识分享
Guapifang
这个作者很懒,什么都没留下…
展开
-
【论文解读】InstructGPT : Training language models to follow instructions with human feedback
InstructGPT做了什么,从论文的摘要来描述是:使语言模型变得更大并不意味着它们本身就能更好地遵循用户的意图。例如,大型语言模型可能会生成不真实、有毒或对用户毫无帮助的输出。换句话说,这些模型与其用户不一致。在本文中,我们展示了一种通过根据人类反馈进行微调,使语言模型与用户在各种任务上的意图保持一致的途径。从一组标记器编写的提示和通过 OpenAI API 提交的提示开始,我们收集了所需模型行为的标记器演示数据集,我们使用该数据集通过监督学习来微调 GPT-3。原创 2023-07-16 17:13:58 · 911 阅读 · 0 评论 -
什么是元学习?外循环和内循环?支持集和查询集?
元学习近几年也算是一个比较热门的研究方向,大部分被用来解决低资源少样本零样本学习的任务场景中。那么为什么元学习可以提升低资源少样本的学习效果呢?活着说元学习到底是一个什么阳的算法呢?这里做一个简单的概念阐述。元学习的目标是让模型学会学习,一般传统的训练方法都是让模型直接对所有数据集进行统一的训练,得到了一套对所有数据集泛化能力都不错的模型参数,但这样有个问题,在具体的某种类型的数据集上,可能效果就会比较一般。原创 2023-07-15 19:45:55 · 1179 阅读 · 0 评论 -
什么是精确率Precision和召回率Recall?
二分类任务中只有正样本和负样本,即标签为1或0。而我们模型的目标就是尽可能去把所有的正样本的都准确的找出来,于是涉及到精确率Precision和召回率Recall。计算召回率:真实的正样本数目为3,而模型预测为准确的正样本数目为2,也就是3条有2条被找出来了,召回率=2/3。计算精确率:预测为正样本的数目为5,但其中只有2条是真的正样本,也就是只有2条被成功预测正确了,精确率=2/5。精确率Precision:指模型预测为正样本的数据中有多少是真的正样本。有10条数据,3条正样本,7条负样本。原创 2023-05-27 23:17:12 · 1660 阅读 · 0 评论 -
ICDM 2022 : 大规模电商图上的风险商品检测 -- top1方案分享+代码
最近想起来把之前参加的这个比赛整理一下,在此非常感谢自己的实验室队友ygm,在这次比赛中两个人相互陪伴一起熬夜一起跑实验,最终在这次比赛中顺利取得了一个不错的结果。比赛链接:https://tianchi.aliyun.com/competition/entrance/531976/introduction?spm=5176.12281957.0.0.5b123eafFvg0CO代码链接:https://github.com/fmc123653/Competition/tree/main/ICDMCup2原创 2022-12-08 14:00:32 · 796 阅读 · 3 评论 -
bert的tokenizer分词后返回offset_mapping
但是专门处理长文本的longformer就没法直接这样加载,会报错,目前的AutoTokenizer还不太支持longformer的tokenizer的加载,可以用BertTokenizer加载,但是BertTokenizer里面没有封装return_offsets_mapping,因此可以用BertTokenizerFast。中文的文本会去除空格等这些没有实际语义的字符;bert的tokenizer对原始会做一些分词处理,英文中会判断哪些字符构成完成的单词,比如。原创 2022-12-01 09:46:07 · 1718 阅读 · 0 评论 -
二分类任务为什么常见用softmax而不是sigmoid
在搭建深度学习模型处理二分类任务的时候,我们常常想到的是定义模型一个输出,然后sigmoid激活输出结果,映射到0-1之间,然后二分类交叉熵损失函数进行训练即可,但是我常常看到的很多别人写的工程代码中,二分类他们都是定义2个输出,然后softmax映射成0和1的概率,再用多分类的交叉熵损失函数进行训练,我就很奇怪为啥要这样,直到最近在跑一个任务,搭建的模型非常复杂,用的一个输出后面接sigmoid,然后。。。。。就出锅了,原因很简单,数据爆炸了,一个输出的内容为-1000到1000多这样的范围(在深度模型训原创 2022-04-03 16:10:03 · 2637 阅读 · 0 评论 -
【2022阿里安全】真实场景篡改图像检测挑战赛 决赛rank17方案分享
最近刚结束阿里安全部门组织的比赛,比赛链接:真实场景篡改图像检测挑战赛。训练、推理包括数据增强的代码都在ImageChallenge。一、比赛是干嘛的简单来说就是原始的图像被篡改了,比如复制粘贴、ps、水印、马赛克等等,然后你用二值图像(也就是黑白、0和255)标记出来,是图像异常检测,也可以理解是图像分割任务。二、为啥参加这个比赛因为我本人平常一直在学图神经网络和自然语言处理,没接触过CV,想着CV也是机器学习领域很大的一个方向很有必要去涉猎了解一下,抱着这样学习的心态就去参加了这个比赛。很感谢原创 2022-03-29 21:13:42 · 1849 阅读 · 11 评论 -
torch nn.Parameter可训练参数定义
自己搭建模型的时候经常需要定义一起参数矩阵,这个矩阵和我们原始输入的数据进行计算得到目标结果,当用torch声明一个向量或矩阵是固定的还是可训练的就需要用nn.Parameter声明,如下:import torch import torch.nn as nn#torch随机生成一个向量,不可训练v = torch.rand(5)print(v)print('-'*100)#声明成一个可随着训练而调整参数的向量v = nn.Parameter(v)print(v)注意下面的requi原创 2022-03-10 19:31:37 · 2841 阅读 · 0 评论 -
【图异常检测论文解读】AnomMAN: Detect Anomaly on Multi-view Attributed Networks
论文链接:AnomMAN: Detect Anomaly on Multi-view Attributed Networks。一、前言1.1 以往图异常检测算法的问题大多数图异常检测算法仅仅考虑单种类型节点的交互活动来检测属性网络上的异常,但未能考虑多视图属性网络中的丰富交互活动。 事实上,在多视图属性网络中统一考虑所有不同类型的交互并检测异常实例仍然是一项具有挑战性的任务。1.2 AnomMAN模型的意义和贡献AnomMAN用于检测多视图属性网络上的异常。 为了同时考虑节点属性和节点之间所有的交原创 2022-03-04 21:32:20 · 3964 阅读 · 1 评论 -
torch 循环神经网络torch.nn.RNN()和 torch.nn.RNNCell()
循环神经网络,处理时间序列数据的老朋友了,虽然使用不当经常带来噪声放大的问题,,,,但效果还是很可以的,比如在机器翻译任务上。这里简单介绍一下torch里面RNN模块和RNNCell模块的区别和使用,顺便回顾下循环神经网络。torch.nn.RNN()调用的是循环神经网络最原始的形态,这种没法处理比较长的时间序列,后面的变体Lstm和GRU解决了这个问题,这里只是用torch.nn.RNN()展示一下循环神经网络的一些基本参数等信息,当然有些大神也是直接调用这个去搭建一些自己需要的网络结构。impor原创 2022-03-08 14:08:48 · 3198 阅读 · 0 评论 -
torch使用踩坑日记,矩阵加速运算
我们知道矩阵运算可以加速,用torch搭建的模型,我们预测数据往往都是同时读取多条(在显卡支持的条件下尽可能同时处理多条数据),这样时间会很快,如果单条数据预测非常慢的,最近在写模型处理大数据,我加载多条数据一起处理,因为数据量太大,没法直接全部转换成矩阵,所以是用列表储存了数据,然后预测的时间就是切片导入到模型中,如下代码所示。import torchfrom torch.autograd import Variablefrom torch import nnimport numpy as np原创 2022-03-08 13:02:45 · 2110 阅读 · 0 评论 -
【图异常检测论文解读】Subtractive Aggregation for Attributed Network Anomaly Detection
图神经网络火起来后,图异常检测算法也大火,得到了很多算法学者的研究,今天看到了一篇结构比较简单的图异常检测算法的论文《Subtractive Aggregation for Attributed Network Anomaly Detection》,内容比较短,但是挺有意思的,特此分享一下,如果我的理解描述有误,也希望各位指正。论文链接:Subtractive Aggregation for Attributed Network Anomaly Detection。一、前言1.1 传统模型的问题图异原创 2022-02-23 21:21:25 · 1967 阅读 · 4 评论 -
图神经网络(一)DGL框架搭建GCN图卷积神经网络模型
一、DGLDGL是基于pytorch开发的一个专门用于图神经网络模型搭建的框架,到现在为止,DGL已经高度封装了如GCN、GraphSage、GAT等常见的图神经网络模型,可以直接调用,比较方便,当然针对非常想挑战自己的编程能力又或者非常想从更底层的角度去学习图神经网络,建议直接看pytorch搭建的模型。DGL的安装和使用可以看看这里,一般是先安装pytorch再安装DGL,不然容易出错,图神经网络框架DGL使用记录。关于DGL各种详细的API和相关使用案例,请参考官方文档,DGL官方文档。二、原创 2022-02-18 21:55:51 · 14671 阅读 · 0 评论 -
图神经网络框架DGL使用记录
最近跟着导师学图神经网络,开始看论文搭模型跑代码,用的DGL框架,一开始不舒服被坑的有点惨,特此记录一下使用情况,避免其他学习的同学踩坑。一、关于安装一定先安装pytorch再安装dgl,因为dgl是依赖于pytorch,也不一定说你颠倒安装顺序就一定不对,但是可能容易出现一些包找不到的问题。二、关于cpu和gpupip install dgl这样默认安装的是cpu版本,没法调用GPU运算,安装GPU版本需要pip install dgl-cu102pip install dgl-cu100原创 2021-12-27 22:28:30 · 3539 阅读 · 0 评论 -
BERT结构知识整理
BERT结构知识整理1 bert介绍 全称叫Bidirectional Encoder Representation from Transformers,也就是来自于transformer的双向编码表示。bert模型有轻量级和重量级,轻量级是纵向连接了12个transformer的encoder层,重量级是纵向连接了24个transformer的encoder层,注意是transformer的encoder层,没有decoder层。所以模型的内部结构没有很大创新,模型的主要创新点是在预训练任务pre-原创 2021-11-30 21:03:14 · 4309 阅读 · 1 评论 -
GAN对抗生成神经网络训练生成二次元妹子+原理解释+代码+数据集
一、GAN对抗生成神经网络简介GAN全名是Generative Adversarial Nets,中文名叫对抗生成神经网络,论文地址:https://arxiv.org/pdf/1406.2661v1.pdf。于2014年提出,其模型思想简单,一个生成器Generator生成虚假的数据,另外一个判别器Discriminator负责判断哪些是虚假的数据,哪些是真实的数据。GAN的用处很广,可以生成虚假图像、文本等数据,当模型训练的数据量很少的时候,也同样可以利用GAN生成数据进行训练,所以GAN也是一种原创 2021-11-25 12:06:16 · 4994 阅读 · 2 评论 -
知识图谱框架DeepKE简单使用+关系抽取+小小bug修复
一、关系抽取知识图谱里面主要涉及两个很重要的领域:实体识别、关系抽取。当然,一般来说实体识别是关系抽取的前提条件,实体识别是序列标注的一种,通过将语句中的各种词的词性进行标注作为标签放入模型中训练,便可进行识别。当一段话能被识别出具体的实体信息后,我们便可以做关系抽取,关系抽取逻辑也比较简单,最简单是是三元组POI,也即(吴京,战狼,主演)。其中实体head为吴京,实体tail为战狼,关系为主演,那么词性呢?吴京词性是人名,战狼词性是电影名或影视剧名。如何实现的关系抽取,一般训练的数据是带有标签的,比原创 2021-11-05 16:03:17 · 12490 阅读 · 10 评论 -
序列标注--词性英文对照表
a 形容词ad 副形词an 名形词ag 形容词性语素al 形容词性惯用语b 区别词bl 区别词性惯用语c 连词cc 并列连词d 副词e 叹词f 方位词h 前缀k 后缀m 数词mq 数量词n 名词nr 人名nr1 汉语姓氏nr2 汉语名字nrj 日语人名nrf 音译人名ns 地名nsf 音译地名nt 机构团体名nz 其它专名nl 名词性惯用语ng 名词性语素o 拟声词p 介词pba 介词“把”pbei 介词“被”q 量词qv 动量词qt 时量原创 2021-10-26 13:45:27 · 1121 阅读 · 0 评论 -
pytorch搭建transformer进行文本分类训练。
完整工程代码点击这里。原创 2021-10-11 15:25:46 · 2775 阅读 · 0 评论 -
pytorch搭建TextRNN做文本分类,TextRNN加Attention做对比
数据集来源:天池零基础入门NLP - 新闻文本分类。完整工程代码点击这里。数据集比较庞大,14个类别,每个文本平均长度为900。一开始就是搭建了很简单的RNN,然后出问题了,模型不收敛,后来看到其他大佬分享的baseline,基本都是把文本截断的,截断到250左右。于是我截断了下,模型有点收敛了,但是跑了几十个epoch还是0.3的精度上不去。。。。然后又找了别人 的TextRNN模型框架,发现了有个很细微的区别,别人的Lstm里面加了dropout,我就有点儿懵,这不是防过拟合的吗?这个模型都还没原创 2021-10-10 19:51:34 · 2883 阅读 · 0 评论 -
torch.nn.functional的F.softmax()用法
F.softmax()就是softmax函数。import torchimport torch.nn.functional as Fx = torch.rand(1,3,2)#1个3x2大小的矩阵y = torch.rand(1,2,4)#1个2x4大小的矩阵z = torch.bmm(x,y)print('原始z矩阵:')print(z)print('按列方向上进行softmax:')print(F.softmax(z, 1))print('按行方向上进行softmax:')prin原创 2021-10-04 22:38:30 · 5639 阅读 · 2 评论 -
torch.bmm()和torch.matmul()函数的用法和区别,矩阵相乘
torch.bmm()和torch.matmul()都是矩阵乘法的运算函数,区别是,torch.matmul更强大。两者都可以支持3维的矩阵运算,实际是第一维只是找下标,后面2维才是矩阵,然后对应做矩阵乘法。import torchx = torch.rand(2,3,2)y = torch.rand(2,2,4)print('矩阵x:',x)print('矩阵y:',y)print('matmul运算:')print(torch.matmul(x,y))print('bmm运算:')原创 2021-10-04 22:26:44 · 5261 阅读 · 0 评论 -
pytorch搭建Lstm构建天池算法大赛---心跳信号分类预测baseline
比赛链接天池零基础入门数据挖掘-心跳信号分类预测。完整工程代码点击。这里直接搭建一个baseline,直接跑代码即可。import pandas as pdimport torch.nn as nnimport torch.nn.functional as Ffrom torch.autograd import Variablefrom sklearn.preprocessing import MinMaxScalerfrom sklearn.model_selection import原创 2021-10-04 16:55:14 · 2173 阅读 · 1 评论 -
pytorch实现孪生神经网络对人脸相似度进行识别
完整工程代码点击这里。import cv2import torch.nn as nnimport torchfrom tqdm import tqdmfrom sklearn.model_selection import train_test_splitimport numpy as npimport randomfrom collections import Countertorch.manual_seed(10)#固定每次初始化模型的权重#-----------------加载图像原创 2021-10-02 21:38:35 · 1137 阅读 · 0 评论 -
pytorch搭建CNN训练识别手写数字集
完整工程点击这里。github限制了文件大小,查看这篇文章获得数据集。keras实现经典LeNet-5网络识别手写数字集MNISTimport osimport torchimport matplotlib.pyplot as pltimport torch.nn as nnimport numpy as npimport pandas as pdimport torch.nn.functional as Ffrom sklearn.preprocessing import MinMaxS原创 2021-10-01 15:44:55 · 297 阅读 · 0 评论 -
pytorch搭建全连接神经网络
import torchimport matplotlib.pyplot as pltimport torch.nn as nnimport numpy as npimport pandas as pdimport torch.nn.functional as Ffrom sklearn.preprocessing import MinMaxScalerfrom sklearn.model_selection import train_test_splitfrom tqdm import t原创 2021-10-01 13:35:43 · 2574 阅读 · 0 评论 -
NLP实用小工具Tokenizer和pad_sequences进行文本的数字编码和长度填充或截断
NLP任务中经常需要把词语转换成数字ID,然后又要统一文本长度,不够的填充0,多出的部分需要截断,keras里面自带了这样的功能模块如下。from keras.preprocessing.sequence import pad_sequencesfrom keras.preprocessing.text import Tokenizer具体使用效果如下from keras.preprocessing.sequence import pad_sequencesfrom keras.preproce原创 2021-09-13 08:55:06 · 1300 阅读 · 0 评论 -
keras实现经典AlexNet网络模型对GTSRB交通数据集训练
完整工程代码点击这里,如果对你的学习有所帮助,欢迎给个star,谢谢~一、AlexNet网络模型AlexNet算是继LeNet-5后的又一个很经典的模型,在论文《ImageNet Classification with Deep Convolutional Neural Networks》被提出,并且该网络在2012年的ImageNet竞赛中取得了冠军,作者是多伦多大学的Alex Krizhevsky等人。算是曾经风靡一时的模型了。下图为AlexNet网络模型,来源于原始论文:严格意义上的Alex原创 2021-08-17 00:00:04 · 1792 阅读 · 1 评论 -
keras实现经典LeNet-5网络识别手写数字集MNIST
LeNet-5是一个很古老也很经典的CNN网络了,结构比较简单,是针对单通道图像构建的模型,当时提出的作者没有详细考虑到用于3通道图像(RGB彩色图像)的识别运用。完整工程代码点击这里,如果你觉得对你的学习有所帮助的话也欢迎给个star,谢谢~一、LeNet网络结构第一层为6个5X5卷积核,步长为1*1,不扩展边界,并输入单通道的灰度图像;第二层为2X2的最大值池化层,步长为2X2;第三层为16个5X5卷积核,步长为1*1,不扩展边界;第四层为2X2的最大值池化层,步长为2X2;第五层为展平原创 2021-08-16 20:58:07 · 1103 阅读 · 0 评论 -
迁移学习、多任务学习、端到端的深度学习
一、迁移学习迁移学习一般情况下是指,当某个数据集很小的时候,我们在这个数据集上构建模型进行训练,效果往往一般,因为数据集很小,数据不能给模型提供足够的特征信息,而这个时候,我们可以采用找到和这个数据集相关的数据量比较庞大的数据集,进行训练,因为这些数据集的特征信息之间存在联系性,在大数据集上训练得到一个模型,固定这个模型的所有参数,然后在模型后面额外添加几层神经元,再去训练原来的小数据集,当然训练的过程中要固定住原来大数据训练得到的模型的那几层神经元的参数不会有改动。这样训练最后得到的模型效果往往比较好,原创 2021-08-15 12:40:27 · 469 阅读 · 0 评论 -
Batch Normalization(批标准化)的原理和意义及对模型的重要影响
一、什么是Batch Normalization(批标准化)?因为我们正常的训练神经网络,为了提高速度,当然也因为很多时候数据量很庞大没法一次性全部读入,我们会把数据分批次读入模型训练,批标准化就是针对每批数据训练后,对网络每层神经元的输出做标准化处理(将很离散的数据映射到0-1之间),这只是一个很简单的操作,但是我为啥要单独拎出来说呢,因为这个批标准化对模型的影响实在太大太大。上周我正开开心心的搭建一个CNN模型跑图像识别,模型没问题,数据正常读取,然后…模型发散了!!!是的,不是过拟合或欠拟合,就是原创 2021-08-15 11:51:27 · 1956 阅读 · 0 评论 -
keras添加L1正则化,L2正则化和Dropout正则化及其原理
一、什么是正则化,用来干嘛的?正则化(regularization),是指在线性代数理论中,不适定问题通常是由一组线性代数方程定义的,而且这组方程组通常来源于有着很大的条件数的不适定反问题。大条件数意味着舍入误差或其它误差会严重地影响问题的结果。因为机器学习的理论来源于数学,正则化的概念被很好的引用到机器学习模型中,主要作用是防止模型过拟合。我们的模型训练时,比如常见的深度学习模型,可能往往会因为神经元的数目和网络的层数过于庞大,模型具有非常强大的学习能力,但是能力过强不是一件好事,因为过分学习了训练原创 2021-08-15 10:22:20 · 6399 阅读 · 3 评论 -
keras搭建ANN多分类任务进行鸢尾花数据集分类
一、数据处理先获取数据集常见的数据集整理中的iris.txt。150条数据,然后3个类别。加载数据df=pd.read_csv('Dataset/iris.txt',header=None,sep=' ').valuesdata=df[:,1:]dic={}#将标签数字化隐射id=0for val in Counter(data[:,-1]).keys(): dic[val]=id id+=1X_data=data[:,0:4]Y_data=[]for val in原创 2021-08-09 11:05:20 · 2309 阅读 · 0 评论 -
训练集、验证集、测试集的区别和联系以及对统计学习和深度学习的意义
在我们一开始学机器学习的时候,可能大部分人和我状态一样,只知道搭建一个模型,然后读入数据去训练就完事了,后来才知道需要细分训练集、验证集和测试集。一、什么是训练集、验证集和测试集训练集:从原始数据集中分离出来的大量数据,喂给模型用来训练模型。验证集:从原始数据集中分离出来的少量数据,用来给训练集训练结束后的模型进行模型的精度评估。测试集:从原始数据集中分离出来的少量数据,用来给训练集训练结束后的模型进行模型的精度评估。其作用和验证集一致,一般是在深度学习的模型中和验证集区别对待,在统计学习模型中一般原创 2021-08-03 18:16:30 · 7665 阅读 · 0 评论 -
Numpy实现多层神经网络(附数据集+代码+神经网络详细推导公式+原理说明)
多层神经网络详细推导公式点击这里:多层神经网络(正向传播、反向传播)公式推导。希望静心下来认真看公式推导,然后可以尝试自己实现代码。数据集用的还是单个神经元实验中的糖尿病数据集。Numpy实现简单神经元进行逻辑回归对糖尿病数据集二分类。实现代码如下:import numpy as npimport pandas as pdimport randomimport queuefrom sklearn.metrics import accuracy_scoreimport matplotlib.原创 2021-07-31 23:37:04 · 2388 阅读 · 3 评论 -
多层神经网络(正向传播、反向传播)公式推导
之前我们已经实现了简单的神经元,并复现了代码对数据进行简单分类。Numpy实现简单神经元进行逻辑回归对糖尿病数据集二分类可惜单个神经元效果并不好,好吧,利用单个神经元做分类也不是我们的目的,但是学好神经元对于构建神经网络意义重大,我希望你能认真查看神经元的构建和推导的公式。本文也将进行神经网络的推导,相关知识,包括链式法则、梯度下降法,以及神经网络和神经元的关系等等,在这篇文章Numpy实现简单神经元进行逻辑回归对糖尿病数据集二分类已经做了详细说明。现在我们开始神经网络的反向推导,正向推导是比较简单的原创 2021-07-31 12:23:07 · 1538 阅读 · 1 评论 -
Python构建ANN模型预测气温变化
在利用爬虫模型得到了气温数据集后,具体参考上篇Python构建爬虫模型爬取天气数据,我们开始利用tensorflow自带的模块搭建一个简单的ANN模型预测气温变化,其实这个模型适用于预测很多数据变化趋势,这里以预测气温变化为例。import requestsfrom bs4 import BeautifulSoupdef get_data(city_name,tim): url="http://www.tianqihoubao.com/lishi/"+city_name+"/month/"+t原创 2020-11-04 19:34:20 · 10519 阅读 · 11 评论 -
Numpy实现简单神经元进行逻辑回归对糖尿病数据集二分类
神经元(也可以叫感知机,本质没有太大区别),是神经网络的基本组成单位,这里实现一个简单的神经元进行逻辑回归,并利用sigmoid函数看看对糖尿病数据集二分类的处理效果如何。基本流程可以先看看这篇,感知机。一、神经元方程式其中x是我们输入的数据向量,x=[x1,x2,x3,x4,…,xn],n为特征数目。w为我们神经元的参数,b是常数项。拆开看为z=w1x1 + w2x2 + w3x3 + ... + wnxn + b其中为激活函数,激活函数有很多,比如tanh双曲正切函数,ReLu函数原创 2021-07-30 11:03:59 · 1552 阅读 · 1 评论 -
常见的激活函数(Sigmoid,tanh双曲正切,ReLU修正线性单元,Leaky ReLU函数)
激活函数在神经元之间作为信息传递的隐射函数,是为了将我们神经元这样的线性模型进行非线性转换的重要存在,使得我们最终的神经网络模型才能够表达出强大的非线性数据拟合能力。这里简单几种常见的激活函数。一、Sigmoid函数表达式为:导函数为:sigmoid是神经网络中很入门的一种激活函数,在以前得到了广泛使用,但是随着后来的学习发展,发现sigmoid的收敛速度很慢,而且因为本身的表达式不能很好的将神经元之间的信息进行非线性隐射,所以在深层神经网络的隐层的各层神经元之间逐渐被ReLU取代,但是即便原创 2021-07-29 22:10:52 · 4671 阅读 · 0 评论 -
链式法则 理解应用
链式法则是微积分中的求导法则,用于求一个复合函数的导数,是在微积分的求导运算中一种常用的方法。复合函数的导数将是构成复合这有限个函数在相应点的 导数的乘积,就像锁链一样一环套一环,故称链式法则。为啥提链式法则,因为这对深度学习,神经网络的参数求解计算起着绝对的影响作用,之前提过神经网络中基本使用了梯度下降法进行参数优化求解,具体关于神经网络的基本组成单元感知机,神经网络是很多感知机根据复杂的连接关系构成,所以详细可以看看感知机的梯度下降求解参数过程就能知道神经网络中每个感知机的参数求解了。因为感知机的函原创 2021-07-29 21:19:26 · 3646 阅读 · 0 评论