深度学习知识点
文章平均质量分 95
葫芦娃啊啊啊啊
这个作者很懒,什么都没留下…
展开
-
统计学知识
期望:随机变量的平均值X的nμn′EXnX的nμnEX−μnX的2阶中心矩称为方差。原创 2023-04-25 15:39:18 · 571 阅读 · 1 评论 -
用Attention和微调BERT进行自然语言推断-PyTorch
当需要决定一个句子是否可以从另一个句子推断出来,或者需要通过识别语义等价的句子来消除句子间冗余时,知道如何对一个文本序列进行分类是不够的。相反,我们需要能够对成对的文本序列进行推断。自然语言推断(natural language inference)主要研究假设(hypothesis)是否可以从前提(premise)中推断出来,其中两者都是文本序列。换言之,自然语言推断决定了一对文本序列之间的逻辑关系。这类关系通常分为三种类型:自然语言推断也被称为识别文本蕴涵任务。斯坦福自然语言推断语料库(Stanford原创 2022-06-23 15:41:06 · 1057 阅读 · 0 评论 -
用RNN & CNN进行情感分析 - PyTorch
情感分析研究人们在文本中(如产品评论、博客评论和论坛讨论等)“隐藏”的情绪。这里使用斯坦福大学的大型电影评论数据集(large movie review dataset)进行情感分析。它由一个训练集和一个测试集组成,其中包含从IMDb下载的25000个电影评论。在这两个数据集中,“积极”和“消极”标签的数量相同,表示不同的情感极性。2.预处理数据集将每个单词作为一个词元,过滤掉出现不到5次的单词,从训练数据集中创建一个词表。在词元化之后,绘制评论词元长度的直方图。从上图可以看出评论的长度各不相同,为原创 2022-06-21 22:42:36 · 3627 阅读 · 4 评论 -
BERT - PyTorch
动手学深度学习笔记一、BERT1.BERT:把两个结合起来2.BERT的输入表示3.编码器4.预训练任务掩蔽语言模型下一句预测5.整合代码二、用于预训练BERT的数据集1.下载并读取数据集2.生成下一句预测任务的数据3.生成遮蔽语言模型任务的数据4.将文本转换为预训练数据集三、预训练BERT1.预训练2.用BERT表示文本一、BERT在word2vec和GloVe中,每个词都是由一个固定的预训练向量表示,而不考虑词的上下文。这些词嵌入模型都是与上下文无关的,无法解决一词多义或复杂语义的问题。随后,E原创 2022-05-22 17:09:23 · 486 阅读 · 0 评论 -
Word2Vec(Skip-Gram和CBOW) - PyTorch
一、词嵌入(Word2vec)1.Skip-Gram2.CBOW模型二、负采样和分层softmax1.负采样2.分层Softmax三、用于预训练词嵌入的数据集1.下采样2.中心词和上下文词的提取3.负采样4.小批量加载训练实例四、预训练word2vec1.前向传播2.损失函数3.训练4.应用词嵌入原创 2022-02-11 17:40:17 · 872 阅读 · 0 评论 -
Transformer - PyTorch
文章目录一、模型1.基于位置的前馈神经网络2.残差连接和层归一化二、编码器三、解码器四、训练和预测一、模型Transformer模型是完全基于注意力机制,所以在学习Transformer之前要知道什么是注意力,自注意力,以及多头注意力,此外还需知道位置编码是什么。可以看注意力机制相关知识点这篇博客后再学习Transformer,会发现Transformer和以往的RNN在模型架构有很多相似之处。Transformer是由编码器和解码器组成的。与注意力机制相关知识点中基于注意力实现的Seq2Seq相比原创 2022-02-08 21:17:37 · 3398 阅读 · 2 评论 -
注意力、自注意力和多头注意力
动手学深度学习笔记一、注意力评分函数1.masked softmax2.加性注意力3.缩放点积注意力二、使用注意力机制的Seq2Seq1.重新定义上下文向量2.定义注意力解码器三、多头注意力1.模型2.代码实现四、自注意力和位置编码1.自注意力2.位置编码一、注意力评分函数把注意力函数的输出结果输入到softmax中进行运算,将得到与键对应的值的概率分布(即注意力权重)。 最后,注意力汇聚的输出就是基于这些注意力权重的值的加权和。f(q,(k1,v1),…,(km,vm))=∑i=1mα(q,ki原创 2022-02-05 16:01:56 · 7077 阅读 · 0 评论 -
基于Seq2Seq的机器翻译-PyTorch
动手学深度学习笔记一、机器翻译1.下载和预处理数据集2.构建词表3.加载数据集二、编码器-解码器架构三、Seq2Seq1.编码器2.解码器3.损失函数4.训练5.预测6.预测序列的评估一、机器翻译机器翻译指将序列从一种语言自动翻译成另一种语言。机器翻译的数据集与语言模型的数据集不同,它是是由源语言和目标语言的文本序列对组成的,因此两者数据集的预处理过程也不同。1.下载和预处理数据集下载一个双语句子对组成的“英-法”数据集,数据集中的每一行都是制表符分隔的文本序列对,序列对由英文文本序列和翻译后的原创 2022-02-05 15:12:22 · 3634 阅读 · 0 评论 -
GRU、LSTM、双向循环神经网络
动手学深度学习笔记一、门控循环单元(GRU)1.重置门和更新门2.候选隐状态3.隐状态4.PyTorch代码二、长短期记忆网络(LSTM)1.输入门、忘记门和输出门2.记忆元3.隐状态4.PyTorch代码三、深度循环神经网络四、双向循环神经网络学习GRU和LSTM之前可以先看 RNN基础代码-PyTorch 这篇博客一、门控循环单元(GRU)1.重置门和更新门重置⻔允许我们控制“可能还想记住”的过去状态的数量;更新⻔将允许我们控制新状态中有多少个是旧状态的副本。Rt=σ(XtWxr+Ht−1原创 2022-02-03 13:54:47 · 1488 阅读 · 0 评论 -
RNN循环神经网络 - PyTorch
动手学深度学习-循环神经网络笔记一、文本预处理1.读取数据集2.Token(词元)化3.构建词表二、读取⻓序列数据1.随机采样2.顺序分区三、RNN从零实现1.预测2.梯度裁剪3.训练四、RNN简洁实现一、文本预处理常⻅预处理步骤:将文本作为字符串加载到内存中。将字符串拆分为词元(如单词和字符)。建立一个词表,将拆分的词元映射到数字索引。将文本转换为数字索引序列,方便模型操作。1.读取数据集d2l.DATA_HUB['time_machine'] = (d2l.DATA原创 2022-01-28 18:56:53 · 1903 阅读 · 0 评论 -
LeNet | AlexNet | VGG | NiN | GoogLeNet | ResNet | DenseNet (CNN模型) - PyTorch
动手学深度学习-卷积神经网络笔记一、LeNet二、深度卷积神经网络(AlexNet)三、使用块的网络(VGG)四、网络中的网络(NiN)五、含并行连结的网络(GoogLeNet)六、残差网络(ResNet)七、稠密连接网络(DenseNet)一、LeNetLeNet:激活函数为Sigmoid,由两个部分组成:卷积编码器:由两个卷积层组成;全连接层密集块:由三个全连接层组成。查看网络结构import torchfrom torch import nnfrom d2l impor原创 2021-12-28 22:58:28 · 1129 阅读 · 0 评论 -
CNN卷积神经网络-PyTorch
动手学深度学习-CNN笔记一、从全连接层到卷积二、图像卷积1.卷积层2.学习卷积核参数3.特征映射和感受野三、填充(padding)四、步幅(stride)五、多输入多输出通道1.多输入通道2.多输出通道3.1×1卷积层六、池化层(或汇聚层,pooling层)一、从全连接层到卷积多层感知机十分适合处理表格数据,其中行对应样本,列对应特征。然而对于高维感知数据,这种缺少结构的网络可能会变得不实用。在多层感知机图像分类例子里,通过将图像数据展平成一维向量,再将数据送入一个全连接的多层感知机中,忽略了每个图原创 2021-12-26 12:00:57 · 2767 阅读 · 0 评论 -
【深度学习PyTorch】层和块、参数访问和初始化、保存和加载模型参数
一、层和块1.自定义块2.顺序块3.在前向传播函数中执行代码二、参数管理1.访问参数2.参数初始化3.参数绑定三、自定义层1.不带参数的层2.带参数的层四、读写文件1.加载和保存张量2.加载和保存模型参数原创 2021-12-25 00:58:12 · 1292 阅读 · 0 评论 -
常见激活函数
一、Sigmoid二、Tanh三、ReLU四、LeakyReLU五、PReLU(Parameterized ReLU)面试常见问题原创 2021-12-23 23:13:09 · 1456 阅读 · 0 评论 -
多层感知机总结-PyTorch
动手学深度学习-多重感知机笔记多层感知机多层感知机的从零开始实现多层感知机的简洁实现范数与权重衰减(weight decay)暂退法(Dropout)前向传播和反向传播梯度消失和梯度爆炸模型验证方法过拟合和欠拟合PyTorchpython深度学习激活函数线性回归线性模型原创 2021-12-23 14:12:26 · 3683 阅读 · 0 评论 -
逻辑回归和多项逻辑回归
逻辑回归,多项逻辑回归,梯度下降,多标签问题,为什么不用平方误差(MSE)作为Logistic回归的损失函数?原创 2021-12-09 16:50:09 · 2413 阅读 · 3 评论 -
模型评估指标
文章目录P-R曲线ROC曲线余弦相似度和余弦距离A/B测试模型验证方法超参数调优过拟合和欠拟合P-R曲线准确率是指分类正确的样本个数占总样本个数的比例,即Accuracy=TP+TNTP+FN+FP+TNAccuracy=\frac{TP+TN}{TP+FN+FP+TN}Accuracy=TP+FN+FP+TNTP+TN精确率是指分类正确的正样本个数占分类器判定为正样本的样本个数的比例,即Precision=TPTP+FPPrecision=\frac{TP}{TP+FP}Precision=TP原创 2021-12-08 23:50:08 · 2434 阅读 · 0 评论 -
第一章 特征工程
文章目录前言一、特征工程是什么?二、数据类型1.结构化数据2.非结构化数据为什么要进行特征归一化最常用的方法主要有以下两种:如何处理分类型特征?总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、特征工程是什么?特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用的过程。特征工程,顾名思原创 2021-11-04 18:38:17 · 353 阅读 · 0 评论