Deep Learning
文章平均质量分 80
wuzqchom
这个作者很懒,什么都没留下…
展开
-
tokenization(二)子词切分方法
接上回,子词词元化(Subwords tokenization)是平衡字符级别和词级别的一种方法,也是目前用得最多的方法。子词词元化的目标有2个:● 常见词不应该切分为更小的单元● 罕见词应该被分解为有意义的子词。原创 2024-06-16 21:34:15 · 968 阅读 · 0 评论 -
tokenization(一)概述
tokenization是包括大语言模型在内所有自然语言处理的任务的基础步骤,其目标是将文本数据转化为数值。包括:基于词的方法、基于字符的方法和基于子词的方法。原创 2024-06-10 16:37:49 · 613 阅读 · 0 评论 -
TensorFlow中CNN的两种padding方式“SAME”和“VALID”
在用tensorflow写CNN的时候,调用卷积核api的时候,会有填padding方式的参数,找到源码中的函数定义如下(max pooling函数也是一样): def conv2d(input, filter, strides, padding, use_cudnn_on_gpu=None, data_format=None, name=None)源码中对于pad...原创 2017-07-08 11:30:57 · 118434 阅读 · 21 评论 -
浅谈Attention-based Model【原理篇】
转载请标明出处:http://blog.csdn.net/wuzqchom/article/details/75792501 计划分为三个部分: 浅谈Attention-based Model【原理篇】(你在这里) 浅谈Attention-based Model【源码篇】 浅谈Attention-based Model【实践篇】0. 前言 看了台大的李宏毅老师关于......原创 2017-07-22 19:24:02 · 55572 阅读 · 16 评论 -
Batch Normalization
1. 背景 首先来看看归一化之前和归一化之后的代价函数示意图,左边的最归一化之前,右边为归一化之后,最中间的点为我们要优化的最优点(图片来自Andrew最新deeplearning.ai改善深层神经网络课程的1.9 Normalizing inputs)。 我们可以看到,在归一化之前,不同的特征的取值范围可能有所不同,这样带来的不好的地方就是在进行梯度下降的时候,学习率不能够设置太大原创 2017-09-18 22:31:22 · 1201 阅读 · 0 评论 -
浅谈Attention-based Model【源码篇】
转载请标明出处:http://blog.csdn.net/wuzqchom/article/details/77918780此为本人阅读tensorflow源码的记录,主要在一些步骤上加了一些注释和少许个人理解,如有不足之处,请予指正。 计划分为三个部分: 浅谈Attention-based Model【原理篇】 浅谈Attention-based Model【源码篇】 浅谈Attentio...原创 2017-09-09 22:54:19 · 11976 阅读 · 1 评论 -
Sampled Softmax
sampled softmax原论文:On Using Very Large Target Vocabulary for Neural Machine Translation 以及tensorflow关于candidate sampling的文档:candidate sampling1. 问题背景在神经机器翻译中,训练的复杂度以及解码的复杂度和词汇表的大小成正比。当输出的词汇表巨大时,传统的sof原创 2017-08-10 20:34:45 · 8184 阅读 · 0 评论 -
Seq2Seq模型
前言: 此文翻译自TensorFlow tutorial: Sequence-to-Sequence Models 阅读完之后感觉挺好的,所以萌生了翻译的念头。 本文的尽量在做到意思正确的情况下,做到不尬翻,但由于是第一次尝试翻译,另加上英语水平有限,难免有所出入,如有不当,请予指正。Sequence-to-Sequence模型 正如之前已经在RNN Tutorial讨论的一样(如果你还没有翻译 2017-08-03 21:55:30 · 7842 阅读 · 8 评论 -
tensorflow中取值
最近在写用tensorflow的程序时,中途遇到想取出tensorflow中的返回值是什么,可是其返回值也是一个tensor。了两种方法:tf.cast(value,dtype=int)tf.to_int32(value)可是,着两条语句返回的都是一个tensor的信息,最后找到了这篇博客,两种方法都可以得到同样的结果:import tensorflow as tfa = tf.constant...原创 2017-07-18 10:47:49 · 11649 阅读 · 0 评论