基础知识点
作为一个半路出家搞NLP的人,知识系统实在是不系统,不完整,只能用到什么查什么,姑且先这么记录一下学习历史吧。为了避免版权问题,都只给链接,希望原链接不要失效吧。
一、数据处理
1. one hot 编码
2. word embedding
3. word2vec
4. 句法分析
二、网络层
1. MLP
2. CNN
3. RNN
变种LSTM,GRU等
三、数据增广
1. Active learning
在已有初步模型基础上,有效选择需要标注的数据,让标注效果最大化
四、tricks
Dropout
Attention
- 论文:Neural Machine Translation by Jointly Learning to Align and Translate
- 哈佛大学 NLP 研究组写的,代码原理双管齐下:The Annotated Transformer,译文
Batch-Normalization
Layer-Normalization
五、主要相关领域
序列标注
CRF
- 原理介绍,解析易懂:简明条件随机场CRF介绍(附带纯Keras实现)
- CRF层在BiLSTM上的应用,英文,举例说明:CRF Layer on the Top of BiLSTM
六、新技术
Transformer
- 论文原文:Attention Is All You Need
- 一文读懂「Attention is All You Need」| 附代码实现
- BERT大火却不懂Transformer?读这一篇就够了 通过举例说明,形象
- 详解Transformer (Attention Is All You Need) 和上文可协同理解
BERT
2018年10月底公布了BERT(Bidirectional Encoder Representation from Transformers) 在11项nlp任务中的卓越表现
- 论文原文:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
- 论文译文:2018年最强自然语言模型 Google BERT 论文全文中译
- 【NLP】彻底搞懂BERT (和arxiv的版本略有不同,大致内容相同)
XLNet
七、经典论文
- A Neural Probabilistic Language Model》
- 说明无监督的数据可以用来作为语言模型的训练数据
- 【论文阅读】A Neural Probabilistic Language Model
- Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks
- 将神经元经过特定排序是为了将层级结构(树结构)整合到LSTM中去,从而允许LSTM能自动学习到层级结构信息。
- ON-LSTM:用有序神经元表达层次结构