下面是 Siraj Raval,对学习自然语言处理的一份建议指南。
详细原地址请看:https://github.com/zr940326/Learn-Natural-Language-Processing-Curriculum
视频地址:https://youtu.be/GazFsfcijXQ
第一周:自然语言文本处理 能力(语言术语+预处理技术)
描述:
- NLP概述(语用学,语义学,语法,形态学)
- 文本预处理(词干化,词形还原,标记化,删除停用词)
视频讲座
- https://web.stanford.edu/~jurafsky/slp3/视频1-2.5
- https://www.youtube.com/watch?v=hyT-BzLyVdU&list=PLDcmCgguL9rxTEz1Rsy6x5NhlBjI8z3Gz
阅读作业:
- 语音和语言处理第1-2章第3版,幻灯片
项目:
- 看1-1到3-4学习NLTK https://github.com/hb20007/hands-on-nltk-tutorial
- 然后使用NLTK在您选择的数据集上执行词干化,词形化,标记化,删除词
第二周:语言模型和 词汇 (历史,流行模型)
描述:
- 词典
- 预深度学习统计语言模型预深度学习(HMM,主题建模与LDA)
视频讲座:
阅读作业:
- 来自UWash课程的4,6,7,8,9,10
额外
项目
- https://github.com/TreB1eN/HiddenMarkovModel_Pytorch为PyTorch中的天气预测构建隐马尔可夫模型
第三周:神经网络和 词镶入 (项目实战)
视频讲座:
阅读作业
- 从课程建议读数
项目
- 3分配可视化和实现Word2Vec,在PyTorch中创建依赖解析器(它们是stanford课程的分配)
第四到第五周:序列建模
描述:
- 序列到序列模型(翻译,摘要,问答)
- 基于注意力的模型
- 深层语义相似度
视频讲座
阅读作业
- 在Deep Semantic Similarity Models上阅读本文https://kishorepv.github.io/DSSM/
- 第10章关于序列建模的深度学习书http://www.deeplearningbook.org/contents/rnn.html
项目
- 3分配,创建翻译和摘要。所有seq2seq型号。在pytorch。
第六周: 对话系统
描述
- 语音识别
- 对话管理员,NLU
视频讲座
阅读作业
项目
- 使用Pytorch https://github.com/ywk991112/pytorch-chatbot创建一个对话系统,使用DialogFlow创建一个面向任务的对话系统来订购食物
第七周: 转移学习 (自己的模型)
视频讲座
- 我在BERT和GPT-2上的视频,如何建立生物医学启动:
- https://www.youtube.com/watch?v=bDxFvr1gpSU
- https://www.youtube.com/watch?v=J9kbZ5I8gdM
- https://www.youtube.com/watch?v=0n95f-eqZdw
- 使用BERT / GPT-2 / ELMO转学
阅读作业
- http://ruder.io/nlp-imagenet/
- https://lilianweng.github.io/lil-log/2019/01/31/generalized-language-models.html
- http://jalammar.github.io/illustrated-bert/
项目
- 使用此https://github.com/huggingface/pytorch-pretrained-BERT#examples选择2个模型,将其用于9个下游任务之一,比较它们的结果。
第八周: 现代nlp研究主题
描述
- 视觉语义学
- 深度强化学习
视频讲座
- CMU视频https://www.youtube.com/watch?v=isxzsAelQX0
- 本https://www.edx.org/course/natural-language-processing-nlp-3的模块5-6
阅读作业
- https://cs.stanford.edu/people/karpathy/cvpr2015.pdf
- 热闹的https://medium.com/@yoav.goldberg/an-adversarial-review-of-adversarial-generation-of-natural-language-409ac3378bd7
项目:
- 政策梯度文本摘要https://github.com/yaserkl/RLSeq2Seq#policy-gradient-w-self-critic-learning-and-temporal-attention-and-intra-decoder-attention重新实现pytorch
----------------最后 推荐一本好书:
https://zh.d2l.ai/ 动手学习机器学习