NLP-学习规划


一、岗位需求

1、不同岗位方向的能力要求比例:

  1. 知识图谱、信息抽取方向 70%
  2. 对话系统、问答系统方向 40%
  3. 文本分类、情感分析方向 20%
  4. ​ 文本推荐方向 15%

其中采样部分对话系统、推荐系统的搭建依赖于知识图谱、信息抽取技术。

2、软技能:

  1. 学习能力、解决问题能力 60%

  2. 团队协作能力 40%

  3. 表达沟通能力 20%

3、加分项:

  1. 高质量的论文 40%
  2. 深度参与的实战算法项目 80%
  3. 高质量的比赛和比赛名次 30%

二、学习规划

第一部分:机器学习基础篇

第一章:自然语言处理概述

  • 什么是自然语言处理
  • 自然语言处理的现状与前景
  • 自然语言处理应用
  • 自然语言处理经典任务
  • 职业发展

第二章:数据结构与算法基础

  • 时间复杂度、空间复杂度
  • 动态规划
  • 贪心算法
  • 各种排序算法

第三章:分类与逻辑回归

  • 逻辑回归介绍
  • 最大似然估计
  • 优化与梯度下降法
  • 随机梯度下降法

第四章:模型泛化与调参

  • 理解过拟合

  • 防止过拟合

  • L1与L2正则

  • 交叉验证

  • 正则与MAP估计

第二部分:文本处理篇

第五章:文本预处理与表示

  • 各类分词算法
  • 词的标准化
  • 拼写纠错、停用词
  • 独热编码表示
  • tf-idf与相似度
  • 分布式表示与词向量
  • 词向量可视化与评估

第六章:词向量技术

  • 独热编码的优缺点
  • 分布式表示的优点
  • 静态词向量与动态词向量
  • SkipGram与CBOW
  • SkipGram详解
  • Negative Sampling

第七章:语言模型

  • 语言模型的作用
  • 马尔科夫假设
  • UniGram, BiGram, NGram模型
  • 语言模型的评估
  • 语言模型的平滑技术

第三部分:序列模型篇

第八章:隐马尔科夫模型

  • HMM的应用
  • HMM的Inference
  • 维特比算法
  • 前向、后向算法
  • HMM的参数估计详解

第九章:线性条件随机场

  • 有向图与无向图
  • 生成模型与判别模型
  • 从HMM与MEMM
  • MEMM中的标签偏置
  • Log-Linear模型介绍
  • 从Log-Linear到LinearCRF
  • LinearCRF的参数估计

第四部分:深度学习与预训练篇

第十章:深度学习基础

  • 理解神经网络
  • 各种常见的激活函数
  • 反向传播算法
  • 浅层模型与深度模型对比
  • 深度学习中的层次表示
  • 深度学习中的过拟合

第十一章:RNN与LSTM

  • 从HMM到RNN模型
  • RNN中的梯度问题
  • 梯度消失与LSTM
  • LSTM到GRU
  • 双向LSTM
  • 双向深度LSTM

第十二章:Seq2Seq模型与注意力机制

  • Seq2Seq模型
  • Greedy Decoding
  • Beam Search
  • 长依赖所存在的问题
  • 注意力机制的实现

第十三章:动态词向量与ELMo技术

  • 基于上下文的词向量技术
  • 图像识别中的层次表示
  • 文本领域中的层次表示
  • ELMo模型
  • ELMo的预训练与测试
  • ELMo的优缺点

第十四章:自注意力机制与Transformer

  • LSTM模型的缺点
  • Transformer概述
  • 理解自注意力机制
  • 位置信息的编码
  • 理解Encoder和Decoder区别
  • 理解Transformer的训练与预测
  • Transformer的缺点

第十五章:BERT与ALBERT

  • 自编码介绍
  • Transformer Encoder
  • Masked语言模型
  • BERT模型
  • BERT的不同训练方式
  • ALBERT

第十六章:BERT的其他变种

  • RoBERTa模型
  • SpanBERT模型
  • FinBERT模型
  • 引入先验知识
  • K-BERT
  • KG-BERT

第十七章:GPT与XLNet

  • Transformer Encoder回顾
  • GPT-1, GPT-2, GPT-3
  • ELMo的缺点
  • 语言模型下同时考虑上下文
  • Permutation LM
  • 双流自注意力机制

第五部分:信息提取与知识图谱篇

第十八章:命名识别与实体消歧

  • 信息抽取的应用和关键技术
  • 命名实体识别
  • NER识别常用技术
  • 实体统一技术
  • 实体消歧技术
  • 指代消解

第十九章:关系抽取

  • 关系抽取的应用
  • 基于规则的方法
  • 基于监督学习的方法
  • Bootstrap方法
  • Distant Supervision方法

第二十章:句法分析

  • 句法分析的应用
  • CFG介绍
  • 从CFG到PCFG
  • 评估语法树
  • 寻找最好的语法树
  • CKY算法

第二十一章:依存文法分析

  • 从语法分析到依存文法分析
  • 依存文法分析的应用
  • 基于图算法的依存文法分析
  • 基于Transition-based的依存文法分析
  • 依存文法的应用案例

第二十二章:知识图谱

  • 知识图谱的重要性

  • 知识图谱中的实体与关系

  • 非结构化数据与构造知识图谱

  • 知识图谱设计

  • 图算法的应用

第六部分:模型压缩与图神经网络篇

第二十三章:模型的压缩

  • 模型压缩重要性
  • 常见的模型压缩总览
  • 基于矩阵分解的压缩技术
  • 基于蒸馏的压缩技术
  • 基于贝叶斯模型的压缩技术
  • 模型的量化

第二十四章:基于图的学习

  • 图的表示
  • 图与知识图谱
  • 关于图的常见算法
  • Deepwalk和Node2vec
  • TransE图嵌入算法
  • DSNE图嵌入算法

第二十五章:图神经网络

  • 卷积神经网络回顾
  • 在图中设计卷积操作
  • 图中的信息传递
  • 图卷积神经网络
  • 图卷积神经网络的经典应用

第二十六章:GraphSage与GAT

  • 从GCN到GraphSAge
  • 注意力机制回归
  • GAT模型详解
  • GAT与GCN比较
  • 对于异构数据的处理

第二十七章:图神经网络的其他应用

  • Node Classification
  • Graph Classification
  • Link Prediction
  • 社区挖掘
  • 推荐系统
  • 图神经网络的未来发展
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大虾飞哥哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值