机器学习
文章平均质量分 84
菜菜雪丫头
这个作者很懒,什么都没留下…
展开
-
【LSTM长短期记忆网络】
0. 从RNN说起循环神经网络(Recurrent Neural Network,RNN)是一种用于处理序列数据的神经网络。相比一般的神经网络来说,他能够处理序列变化的数据。比如某个单词的意思会因为上文提到的内容不同而有不同的含义,RNN就能够很好地解决这类问题。1. 普通RNN先简单介绍一下一般的RNN。其主要形式如下图所示(图片均来自台大李宏毅教授的PPT):这里:xxx 为当前状态下数据的输入,yyy 为当前节点状态下的输出。 hhh 表示接收到的上一个节点的输入, 而 h′h'h′ 为原创 2022-04-05 22:10:45 · 255 阅读 · 0 评论 -
【相似性度量中用到的一些距离函数】
1.欧氏距离(欧几里得距离 Euclidean Distance)最常见的距离度量,即欧几里得距离。它是一种距离度量,直观解释为连接两点的线段的长度。公式:优点低维数据并且向量的大小对于测量很重要时,欧几里德距离效果很好。缺点虽然它是一种常见的距离度量,但欧几里德距离不是尺度不变的,这意味着计算的距离可能会根据要素的单位而发生偏斜。通常,在使用此距离度量之前需要对数据进行归一化。此外,随着数据维度的增加,欧几里得距离变得越来越没有用,另外高维下距离非常不直观。2.余弦相似度 Cosine原创 2022-03-30 21:25:51 · 1736 阅读 · 1 评论 -
【KL散度原理与实现】
1. 定义KL散度( Kullback–Leibler divergence),又称相对熵(relative entropy),是描述两个概率分布P和Q差异的一种方法。2. 特点它是非对称的,这意味着D(P||Q) ≠ D(Q||P)。3. 意义特别的,在信息论中,D(P||Q)表示当用概率分布Q来拟合真实分布P时,产生的信息损耗,其中P表示真实分布,Q表示P的拟合分布。KL散度在信息论中有自己明确的物理意义,它是用来度量使用基于Q分布的编码来编码来自P分布的样本平均所需的额外的Bit个数。而其原创 2022-03-30 15:51:43 · 1639 阅读 · 0 评论 -
【Attention机制讲解】
Attention机制讲解attention是一种能让模型对重要信息重点关注并充分学习吸收的技术,它不算是一个完整的模型,应当是一种技术,能够作用于任何序列模型中。Seq2Seq在开始讲解Attention之前,我们先简单回顾一下Seq2Seq模型,传统的机器翻译基本都是基于Seq2Seq模型来做的,该模型分为encoder层与decoder层,并均为RNN或RNN的变体构成,如下图所示:该模型对于短文本的翻译来说效果很好,但是其也存在一定的缺点,如果文本稍长一些,就很容易丢失文本的一些信息,为了原创 2022-03-24 15:15:18 · 6551 阅读 · 1 评论 -
【常用的激活函数】
一、什么是激活函数?在神经元中,输入的 inputs 通过加权,求和后,还被作用了一个函数,这个函数就是激活函数 Activation Function,又称激励函数,如下图所示:二、激活函数的作用(为什么需要激活函数)?如果不用激励函数(其实相当于激励函数是f(x)=x),在这种情况下你每一层节点的输入都是上层输出的线性函数,很容易验证,无论你神经网络有多少层,输出都是输入的线性组合,与没有隐藏层效果相当,这种情况就是最原始的感知机(Perceptron)了,那么网络的逼近能力就相当有限。正因为上原创 2022-03-23 11:23:39 · 5938 阅读 · 0 评论 -
【L1正则化与L2正则化详解及为什么L1和L2正则化可防止过拟合】
一、为什么L1和L2正则化可防止过拟合?线性模型常用来处理回归和分类任务,为了防止模型处于过拟合状态,需要用L1正则化和L2正则化降低模型的复杂度,很多线性回归模型正则化的文章会提到L1是通过稀疏参数(减少参数的数量)来降低复杂度,L2是通过减小参数值的大小来降低复杂度。下面我们从梯度角度进行分析。1、L1正则化L1正则化的损失函数为:上式可知,当w大于0时,更新的参数w变小;当w小于0时,更新的参数w变大;所以,L1正则化容易使参数变为0,即特征稀疏化。2、L2正则化L2正则化的损失函数为:原创 2022-03-22 10:15:24 · 2658 阅读 · 0 评论 -
【防止过拟合的方法】
深度学习有哪些防止过拟合的方法?使用正则化;数据增强;提前终止;加bn层;dropout;参数绑定与参数共享;辅助分类节点;bagging方法;原创 2022-03-21 20:13:08 · 3442 阅读 · 0 评论