自然语言处理
文章平均质量分 94
iTensor
中科院某所渣硕,瞎研究自然语言处理方向。
展开
-
机器翻译:统计建模与深度学习方法
前言机器翻译:统计建模与深度学习方法Machine Translation: Statistical Modeling and Deep Learning Methods推荐一本来自东北大学自然语言处理实验室 (NEUNLPLab) / 小牛翻译 (NiuTrans Research)关于机器翻译的教材。目的是对机器翻译的统计建模和深度学习方法进行较为系统的介绍。其内容被编纂成书,可以供计算机相关专业高年级本科生及研究生学习之用,亦可作为自然语言处理,特别是机器翻译相关研究人员的参考资料。本书用tex原创 2020-08-02 21:37:35 · 669 阅读 · 0 评论 -
优化算法总结
背景对一个多元函数 f(x)f(x)f(x) 求最小值,当无法准确求出其准确结果时,需要用到其导数。根据泰勒公式,f(x)f(x)f(x) 在 xkx_kxk 处展开二阶导:f(x)≈f(xk)+∇xf′(xk)(x−xk)T+12(x−xk)T∇x2f′′(xk)(x−xk)f(x) \approx f(x_k) + \nabla_x f'(x_k)(x - x_k)^T + \fra...原创 2019-10-15 11:24:12 · 314 阅读 · 0 评论 -
[未完] 深度学习 之 词向量(Word Embedding)篇 :word2vec
欢迎参观 一> 个人小站 一. 词向量表示形式在使用神经网络模型进行文本分类或者机器翻译时,前提工作是要对整理好的文本数据进行词向量化 (Word Embedding) ,既使用向量形式代表词。1.1 One-hot representation表示形式:向量维度的大小为数据中词汇表的大小,每个单词对应的位置置为1。例如 { I love china } ,love...原创 2018-08-02 23:32:45 · 1616 阅读 · 0 评论 -
Attention小结
[Encoder–Decoder Model](#Encoder–Decoder Model)[Attention Mechanism](#Attention Mechanism)ReferencesEncoder–Decoder Model在论文1中提出了一种用来处理机器翻译任务的新模型 Encoder–Decoder Model 。[外链图片转存失败(img-mzXcN5Vl-15...原创 2019-09-03 08:23:41 · 126 阅读 · 0 评论 -
Embedding小结
Word2Vec TutorialIdeaWord2Vec 是一个可以将单词转换为固定维度向量的工具。Two modelSkip-Gram(SG)基本思想给定中心词,去预测窗口范围内的词。例如给定句子:{...,"prolems", "turning", ’into", ’banking", "crises’, "as",...}给定窗口 m=2m = 2m=2 ,中心...原创 2019-09-03 08:31:14 · 842 阅读 · 0 评论 -
XGboost小结
集成学习集成学习是将多个模型组合成一个模型的方法,一般是将学习到的多个弱学习器(基分类器)进行组合,构成一个强学习器,集诸子百家之大成。根据组合方式不同,又分为 $Bagging $ 和 BoostingBoostingBoosting ,前者代表算法是随机深林,后者代表是 AdaBoostAdaBoostAdaBoost 、GBDTGBDTGBDT 、XGBoostXGBoostXGBoost...原创 2019-09-03 08:32:12 · 164 阅读 · 0 评论 -
Transformer小结
[Model Architecture](#Model Architecture)Self-Attention[Multi-Head Attention](#Multi-Head Attention)[Positional Encoding](#Positional Encoding)EncoderDecoderSummaryReferenceModel Architecture...原创 2019-09-03 08:40:43 · 958 阅读 · 2 评论 -
熵小结
信息量与事件发生概率大小相关,发生概率越大,信息量越大。设事件 xxx 发生的概率为 p(x)p(x)p(x) ,那么该事件的信息量为:I(x)=−log(p(x))I(x) = -log(p(x))I(x)=−log(p(x)) 。熵在信息论和概率统计中,熵表示随机变量不确定性的度量。设随机变量为 XXX ,即事件 XXX 发生的可能性共有 nnn 个,每个可能 xix_ixi 发生的...原创 2019-09-03 08:42:12 · 280 阅读 · 0 评论 -
bert原理篇
文章目录背景模型结构参数设置输入表示Pre-TrainingTask 1:Masked LMTask 2:Next Sentence Prediction (NSP)背景正如论文名:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding。BERT 是一个语言模型,通过大量的语料进行无监督训...原创 2019-09-12 14:57:17 · 1257 阅读 · 2 评论