![](https://img-blog.csdnimg.cn/20190209203937207.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
深度学习
文章平均质量分 95
漫漫DL之路
iTensor
中科院某所渣硕,瞎研究自然语言处理方向。
展开
-
优化算法总结
背景对一个多元函数 f(x)f(x)f(x) 求最小值,当无法准确求出其准确结果时,需要用到其导数。根据泰勒公式,f(x)f(x)f(x) 在 xkx_kxk 处展开二阶导:f(x)≈f(xk)+∇xf′(xk)(x−xk)T+12(x−xk)T∇x2f′′(xk)(x−xk)f(x) \approx f(x_k) + \nabla_x f'(x_k)(x - x_k)^T + \fra...原创 2019-10-15 11:24:12 · 286 阅读 · 0 评论 -
bert原理篇
文章目录背景模型结构参数设置输入表示Pre-TrainingTask 1:Masked LMTask 2:Next Sentence Prediction (NSP)背景正如论文名:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding。BERT 是一个语言模型,通过大量的语料进行无监督训...原创 2019-09-12 14:57:17 · 1229 阅读 · 2 评论 -
Logistic Regression小结
逻辑回归背景逻辑回归是用回归的方法做分类。假设数据服从 0-1 分布(伯努利分布),那么随机变量 XXX 只有正类 1 和 负类 0 两个选择,并且相应的概率为:ppp 和 1−p1-p1−p 。可以使用线性回归方法,寻找判别函数 g(x)=θ0x0+θ1x1+...+θnxng(x) = \theta_0 x_0 + \theta_1 x_1 +...+\theta_n x_ng(x)=...原创 2019-09-03 08:33:35 · 128 阅读 · 0 评论 -
Embedding小结
Word2Vec TutorialIdeaWord2Vec 是一个可以将单词转换为固定维度向量的工具。Two modelSkip-Gram(SG)基本思想给定中心词,去预测窗口范围内的词。例如给定句子:{...,"prolems", "turning", ’into", ’banking", "crises’, "as",...}给定窗口 m=2m = 2m=2 ,中心...原创 2019-09-03 08:31:14 · 810 阅读 · 0 评论 -
Attention小结
[Encoder–Decoder Model](#Encoder–Decoder Model)[Attention Mechanism](#Attention Mechanism)ReferencesEncoder–Decoder Model在论文1中提出了一种用来处理机器翻译任务的新模型 Encoder–Decoder Model 。[外链图片转存失败(img-mzXcN5Vl-15...原创 2019-09-03 08:23:41 · 110 阅读 · 0 评论 -
Transformer小结
[Model Architecture](#Model Architecture)Self-Attention[Multi-Head Attention](#Multi-Head Attention)[Positional Encoding](#Positional Encoding)EncoderDecoderSummaryReferenceModel Architecture...原创 2019-09-03 08:40:43 · 931 阅读 · 2 评论 -
[未完] 深度学习 之 词向量(Word Embedding)篇 :word2vec
欢迎参观 一> 个人小站 一. 词向量表示形式在使用神经网络模型进行文本分类或者机器翻译时,前提工作是要对整理好的文本数据进行词向量化 (Word Embedding) ,既使用向量形式代表词。1.1 One-hot representation表示形式:向量维度的大小为数据中词汇表的大小,每个单词对应的位置置为1。例如 { I love china } ,love...原创 2018-08-02 23:32:45 · 1579 阅读 · 0 评论 -
详解从 Seq2Seq模型、RNN结构、Encoder-Decoder模型 到 Attention模型
注:本文的所有模型只涉及自然语言处理领域,同时本文不涉及太多复杂公式推导。一、Seq2Seq 模型1. 简介Sequence-to-sequence (seq2seq) 模型,顾名思义,其输入是一个序列,输出也是一个序列,例如输入是英文句子,输出则是翻译的中文。seq2seq 可以用在很多方面:机器翻译、QA 系统、文档摘要生成、Image Captioning (图片描述...原创 2018-04-25 20:59:57 · 5243 阅读 · 6 评论 -
深度学习之LSTM篇
循环神经网络(RNNs) 人们思考的时候往往会依据之前的经验,正如读这篇文章的时候,在读第二段的时候你会回忆第一段相关的内容,而不是将每一段单独来进行学习。正是因为这具有连贯性。 这也恰好是传统神经网络的缺点。例如,你想要分辨一个电影在每个时刻想要发生什么情节。传统神经网络不能根据前一刻的情节来判断下一刻发生的情节。 但是,RNN可以解决这个问题。因为RNN的网络结构...原创 2018-04-15 22:35:35 · 457 阅读 · 0 评论