AI
文章平均质量分 80
不爱写程序的程序猿
费曼学习法,就是授人以渔来巩固自己的知识,写博客的意义也亦如此
展开
-
Machine Learning Project Checklist
文章目录Machine Learning Project ChecklistFrame the Problem and Look at the Big PictureGet the DataExplore the DataPrepare the DataShortlist Promising ModelsFine-Tune the SystemPresent Your SolutionLaunch!Machine Learning Project ChecklistThis checklist can原创 2021-12-11 16:19:30 · 515 阅读 · 0 评论 -
关于张量的维度参数(dim)
0表示张量的最高维度 1表示张量的次高维度 2表示张量的次次高维度-1表示张量维度的最低维度 -2表示张量的倒数第二维度,-3表示倒数第三维度注意最高不是最大原创 2021-10-18 22:18:47 · 1204 阅读 · 2 评论 -
市面主流翻译功能提供商:谷歌-阿里-有道-百度-腾讯翻译的一个小测试,结果出乎意料。
Bert作为新兴的预训练模型在很多下游自然语言处理任务中获得了很好的效果。神经机器翻译也因为Transformer架构的出现性能得到了大幅度提升。Bert做到了一个很重要的一点就是context-sensitive,也就是上下文敏感。而今天,我们就使用一下一个典型的上下文敏感的例子来测试一下各大翻译软件的性能。帮助从一个不同的角度看哪个翻译软件最好这个热门话题。我选取的例子是 a crane is flying-这个例子来自于dive in into deep learning 2-version原创 2021-08-28 22:19:44 · 776 阅读 · 0 评论 -
Seq2Seq and NMT(基于cs224n的最全综述神经机器翻译技术)
文章目录Machine Translation的简介:统计机器翻译模型(SMT):神经机器翻译(NMT)-sequence 2 sequenceGreedy decodingBeam searching decodingBeam search decoding: stopping criterion—停止标准NMT与SMT的对比:NMT的缺点:NMT评估-BLEUNMT仍然需要重点研究和解决的领域:NMT研究的继续-sequence to sequence的新进展(Attention)Attention的工原创 2021-07-12 20:57:13 · 934 阅读 · 1 评论 -
梯度消失/爆炸与RNN家族的介绍(LSTM GRU B-RNN Multi-RNNs)-基于cs224n的最全总结
vanishing gradients and fancy RNNs(RNN家族与梯度消失)文章目录vanishing gradients and fancy RNNs(RNN家族与梯度消失)内容大纲:Vanishing gradientExploding gradient如何修复vanishing gradient的问题LSTM(Long short-Term Memory)LSTM是如何解决vanishing gradients的问题的?GRU(Gated recurrent units)-两个门解决原创 2021-07-09 16:24:37 · 325 阅读 · 0 评论 -
RNN-LM(语言模型与RNN)-基于cs224n的最全总结
语言建模与循环神经网络(language Modeling and RNN)语言模型的实质就是预测下一个出现的词的概率 给一段文本依次预测N-gram modelN-gram就是由n个连续单词组成的块核心思想:通过统计不同n-grams出现的概率,然后预测下一个词语。假设与定义:一个简单的条件概率模型:第n个单词是什么只取决于前面n-1个单词如何计算?通过对大型语料库的计数来计算概率N-gram的几个典型问题:只考虑前面的N-1个单词,可能忽略很多有用的背景信息,例如学生打原创 2021-07-08 13:55:42 · 807 阅读 · 0 评论 -
CS224N笔记(1~3)简介+word2vector
CS224NNLP与深度学习的结合简介文章目录CS224NNLP与深度学习的结合简介简介为什么NLP会这么困难?Deep NLP:What is word2vector?word2vector的常见方法(word embedding):skip-grams(最基础,效率不高):摘录一篇csdn大佬的总结:skip-grams的优化负采样(negative sampling)CBOW模型CBOW网络计算的步骤:一种基于这种直接查看共现(co-occurence)矩阵的方法:**怎么解决呢?答案是奇异值分解原创 2021-07-03 18:16:46 · 192 阅读 · 1 评论 -
什么是Self-attention?(Transfomer)
2.Self-attention(Transfomer)基于台大李宏毅老师的课程文章目录2.Self-attention(Transfomer)导读Self-attentionSelf-attention的计算过程计算过程的向量化(query key value)需要学习的参数Multi-head self-attention (Different types of relevance)-不同的相关性加入位置信息(比如pos-tagging 词性标记-分析)NLP应用(Bert)Speech(应用)im原创 2021-06-26 00:40:37 · 662 阅读 · 1 评论 -
CNN-台大李宏毅学习笔记
1.CNN文章目录1.CNNCNN -2 versionCNN为什么叫CNN?(卷积)总结:Pooling(池化)Alpha Go?ONE-HOT Vector 维度-决定了图像分类的个数softmax一张图片一般是一个3D-Tensor长和宽代表了这张图片的像素值-即解析度channel(一般是3 RGB-三原色)图片作为输入时,一般是长宽相同的,这需要resize(shape)来进行数据预处理一个网络的输入通常是一个向量-所以我们在输入时需要将3D-Tensor拉直,成一个在此例子中原创 2021-06-19 19:49:27 · 205 阅读 · 0 评论 -
深度学习的优化-Batch norm
Batch归一化(Batch norm)在前面,我们学到,将输入数据归一化(数据预处理)有助于我们加速模型优化(消除量纲)而现在,我们要将这种思想运用到神经网络的各个隐藏层输出中上图就是应用的过程,不同的是,我们加入了参数α和β控制Z的均值和方差从而使得我们隐藏单元值的均值和方差标准化,这两个参数会随着我们的优化算法,比如Adam算法一起更新,需要加入两个参数的一个直观原因是,例如我们的激活函数是sigmoid,我们不会想要其输出的均值都位于中间的线性部分,而需要利用sigmoid函数的非线性部分原创 2021-02-26 18:00:54 · 472 阅读 · 3 评论 -
机器学习之学习率衰减
学习率衰减可以看到,随着训练过程减少learning rate 能够使得优化算法更好的达到最优值epoch代表代数每一次遍历整个训练集叫做一代 注意不是遍历一次mini-batch 而是整个batch公式:α=11+decay−rate∗epoch−numα0\alpha=\frac{1}{1+decay-rate*epoch-num}\alpha_0α=1+decay−rate∗epoch−num1α0一些其他衰减法...原创 2021-02-25 13:00:31 · 417 阅读 · 0 评论 -
RMSprop与Adam算法
文章目录RMSprop算法(Root mean squre)Adam(Adaptive moment estimation) 优化算法(将RMSprop和动量梯度结合在一起)超参数的选择RMSprop算法(Root mean squre)其基本思想和动量梯度下降法一样,也是为了消除梯度下降时纵轴方向的摆动而尽量不太影响水平轴,然后我们使用更大的learning rate 来高效的优化模型.这里我们使用参数w来表示水平方向 参数b来表示竖直方向 那么 RMSprop的实现过程就是:On iterat原创 2021-02-25 12:58:38 · 2347 阅读 · 0 评论 -
机器学习中的梯度检验(Grad check)
文章目录梯度的数值逼近梯度检验(Grad check)使用梯度检验的注意事项:梯度的数值逼近大O表示法-表示逼近误差用双边误差检验应该比单边误差检验更加合理,计算出的值更加接近导数的真实值梯度检验(Grad check)梯度检验的步骤:首先将每一层的w,b进行连接和组合来组成一个巨大的向量,所以这时J的参数就只有一个大θ然后用for遍历大θ对大θ中的每一个θ做梯度数值逼近计算,最终得到一个向量dθapprox (这里应该可以使用numpy进行向量化计算,不用for循环遍历)原创 2021-02-24 23:18:41 · 1491 阅读 · 1 评论 -
梯度消失\梯度爆炸(Vanishing/exploding gradients)与解决方案
文章目录梯度消失\梯度爆炸(Vanishing/exploding gradients)神经网络的权重初始化的方法(解决梯度消失和梯度爆炸的问题)梯度消失\梯度爆炸(Vanishing/exploding gradients)对于一个深层神经网络,其层数是非常多的.即使我们设置的初始权重矩阵的值是接近于1的,但经过一个深层的网络计算后激活函数或者说与层数L相关的导数或者梯度函数会曾指数级增加或减小,从而导致进行梯度下降训练变得十分困难,例如梯度下降法的步长变得非常非常小(因为梯度变得很小).神原创 2021-02-24 23:14:01 · 1089 阅读 · 0 评论 -
深度学习中的正则化(regularization)
正则化和准备更多数据都是用于解决模型高方差的方法文章目录logistic regression中的正则化Neural network中的正则化为什么正则化能够防止过拟合?从神经网络来看从激活函数来看dropput正则化(随机失活)实现dropout的方法(反向随机失活)使用dropout在测试集与在训练集中的不同dropout为什么有效?对于神经网络dropout的主要应用dropput的缺点补充:一般droput方法的具体流程:其他正则化方法数据增强(Data augmentation)Early st原创 2021-02-24 23:09:41 · 1181 阅读 · 0 评论 -
Mini-batch梯度下降法
在大数据时代,数据量很大,如果我们每次都进行基于整个训练集的batch gradient descent 也就是批梯度下降会使得计算时间变得很长所以 我们研究出了一种新的算法 mini-batch algorithm 其简单来说,就是将训练集拆分成n个mini-batch再进行分别处理,而不再是同时处理X和Y集对训练集的拆分用 X{t}X^{\{t\}}X{t} 表示经过拆分后,一次遍历训练集可以做t次梯度下降.其与传统batch gradient descent的比较可以.原创 2021-02-24 23:02:38 · 1191 阅读 · 0 评论 -
指数加权平均与动量梯度下降法
文章目录指数加权平均(Exponentially Weighted averages)理解指数加权平均实现指数加权平均数我们为什么要使用指数加权平均数?指数加权平均的偏差修正(bias correction)动量梯度下降法(Momentum gradient descent)指数加权平均(Exponentially Weighted averages)上图的vt就是加权平均数,11−β表示其代表多少天的加权平均数上图的v_{t}就是加权平均数, \frac{1}{1-\beta}表示其代表多少天的加权原创 2021-02-24 22:59:05 · 1405 阅读 · 1 评论 -
聚类分析法-K-means聚类
K-means聚类法1.简介 用层次聚类法聚类时,随着聚类样本对象的增多,计算量会迅速增加,而且聚类结果-谱系图会十分复杂,不便于分析,特别是样品的个数很大(如n>=100)的时,层次聚类法的计算量会非常大,将占据大量的计算机内存空间和较多的计算时间. 为了改进上述缺点, 一个自然的想法是先粗略地分一下类,然后按某种最优原则进行修正,直到将类分得比较合理为止. 基于这种思想就产生了动态聚类法,也称逐步聚类法. 动态距离法适用大型数据.动态聚类法有许多种方法,这里介绍一种比较流行的动态聚类原创 2021-02-15 17:49:47 · 3332 阅读 · 1 评论 -
聚类分析法-层次聚类
聚类分析法文章目录聚类分析法1.简介2.基本内容介绍1.数据变换2. 样品间亲疏程度的测度计算常用距离计算1. 闵式(Minkowski)距离2. 马氏(Mahalanobis)距离相似系数的计算1. 夹角余弦2.皮尔逊相关系数3.使用scipy.cluster.hierarchy模块实现层次聚类1. distance.padist2. linkage3.fcluster4.H=dendrogram(Z,p)4.基于类间距离的层次聚类1. 最短距离法2. 例子:3. 最长距离法4.例子:1.简介 聚原创 2021-02-12 10:44:28 · 3085 阅读 · 3 评论 -
Andrew Ng 神经网络与深度学习 笔记详解目录
Andrew Ng 神经网络与深度学习 week1Andrew Ng 神经网络与深度学习 week2Andrew Ng 神经网络与深度学习 week3Andrew Ng 神经网络与深度学习 week4原创 2021-02-02 12:22:10 · 525 阅读 · 0 评论 -
Andrew Ng 神经网络与深度学习 week4
文章目录什么是深层神经网络深层神经网络的符号表示深度神经网络中的前向传播在构建深层神经网络时去核对矩阵的维度加上训练样本m深层神经网络的意义(建立直觉)电路理论搭建深度神经网络块正向传播和反向传播过程正向传播反向传播**总结:**参数VS超参数(hyper parameters)深度学习和大脑实际上并没有特别多的关联编程作业(构建L层神经网络)L层神经网络流程图**源码摘录**(函数模块)(分别实现的是单隐层网络和L层神经网络)**Result analysis**什么是深层神经网络深层神经网络的符号原创 2021-02-02 12:19:31 · 254 阅读 · 0 评论 -
Andrew Ng 神经网络与深度学习 week3
文章目录神经网络的表示:双层神经网络的表示计算神经网络的输出多个训练样本的向量化实现将其向量化向量化实现的解释总结:推理演绎Activation functiontanh函数(对sigmoid函数做一定平移得到的新的函数)**Relu函数(修正线性单元)**总结:Why we need to use the activation function?**激活函数的导数**sigmoidTanhReLu and Leaky ReLu**神经网络的梯度下降法**反向传播六个式子的计算过程总结:随机初始化(rand原创 2021-02-02 12:12:40 · 301 阅读 · 0 评论 -
Andrew Ng 神经网络与深度学习 week2
神经网络与深度学习文章目录神经网络与深度学习Logistic回归sigmaLogistic回归另一种表示法Logistic回归的损失函数(cost function)notation:为什么convex function 被译作凸函数?Loss function(用于单个训练样本 (xi,yix^i,y^ixi,yi))为什么Loss function是这样?cost function(衡量的在整个训练集上的表现)为什么cost function是这样?什么是独立同分布?梯度下降(gradient des原创 2021-02-02 12:06:03 · 490 阅读 · 0 评论 -
Andrew Ng 神经网络与深度学习 week1
神经网络与深度学习ReLu function(rectified linear unit)例如房屋价格总不能是负的rectified 修正表示的取的都是不小于零的值sigma函数(取值0~1)sigma函数和Relu函数都是active function很明显可以看到 sigma函数在x>0的时候,梯度会逐渐趋近与0所以Relu函数会使得梯度下降有更快的运算速度一个基本的神经网络神经元的核心是找到不同的特征作为输入 通过神经元的计算 得到y 不论训练集有多大对于一个神经网络原创 2021-02-02 11:53:17 · 408 阅读 · 0 评论 -
Logistic regression实现二分类的理论基础-面试必问
Logistic回归在Logistic回归的二分类问题中,我们需要得到的是y=1的概率 y^=p(y=1∣x)\hat{y}=p(y=1|x)y^=p(y=1∣x),所以我们需要对线性回归拟合出的结果加一个激活函数(active function)-sigma function,来使得y^\hat{y}y^ 的取值范围位于[0,1]之间.sigmaLogistic回归另一种表示法Logistic回归的损失函数(cost function)notation:用i来关联每一个样本的数原创 2021-01-27 23:05:34 · 252 阅读 · 0 评论