国科大 自然语言处理 期末复习总结

学长的话:之前做的笔记(写的有点乱不要在意),现在拿出来翻了一翻,我研一一直在实验室搬砖,课基本没怎么上,期末剩下两周开始复习nlp,ml,ai三门专业课,均分也有90+。所以现在还没复习的学弟学妹们不要慌,这三门考试都不难,看看我整理的两个复习笔记,再看看老师的ppt,没问题的!

上次考试知识点
  • 连词引起歧义的结构

  • 编辑距离(插入、删除、替换、交换
    在这里插入图片描述

  • 有限状态自动机与正则文法之间的转化

  • 复杂特征集的交集

  • 三元文法(Tri-grams)

  • 评价机器翻译译文质量的方法

  • 分词系统的准确率、召回率和F1

  • 依存关系树的性能指标

  • 正向最大分词算法,逆向最大分词算法

  • 线图句法分析算法(Chart Parser)

概念题知识点
  • 问答式检索应用——Watson(沃森),DeepQA 问 答 系 统 是Watson实现的核心

  • TF-IDF的公式要记住
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  • 熵,联合熵,条件熵,连锁规则,熵率,相对熵(KL距离),交叉熵,困惑度,互信息,双字耦合度
    在这里插入图片描述

  • 文本摘要中消除冗余句子的方法是CSIS,MMR

  • ROUGE评测方法
    在这里插入图片描述
    在这里插入图片描述

  • 语料库(corpus) 是存放语言材料的仓库 ( 语言数据库)

  • 基于语料库进行语言学研究,被称为语料库语言学

  • 词汇知识库的四种语义关系:同义关系,反义关系,上下位关系,部分关系

  • 对汉字而言四元语法效果会好一些

  • 语言模型参数估计的两个重要方法:训练语料,最大似然估计

  • 数据平滑方法:加一法,减值法/折扣法(古德图灵估计),删除差值法

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

  • NLP中的知识库包括词汇语义库,词法句法规则库、常识库

  • 语料库按内容构成和目的划分:异质的,同质的,系统的,专用的

  • 语料库的类型:共时语料库与历时语料库

  • 语料库设计需要考虑的问题:静态与动态,代表性和平衡性,规模,语料库的管理与维护

  • 典型语料库:布朗语料库,LLC口语语料库,朗文语料库,宾夕法尼亚树库,北大的CLKB

  • 语言的分类:曲折语(英语),分析语/孤立语(汉语),黏着语(日语)

  • UPenn Treebank 的词性标注集确定原则:可恢复性,一致性,不明确性

  • 移进-归约算法
    在这里插入图片描述

  • Arc-eager 分析算法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 语义网络各概念之间的关系,主要由 IS-A,PART-OF, IS, COMPOSED-OF, HAVE, BEFORE,LOCATED-ON 等谓词表示

  • 语言模型的自适应方法有:基于缓存的语言模型(在文本中刚刚出现过的一些词在后边的句子中再次出现的可能性往往较大);基于混合方法的语言模型(由于大规模训练语料本身是异源的,来自不同领域的语料无论在主题方面, 还是在风格方面, ,或者两者都有一定的差异,而测试语料一般是同源的,因此,为了获得最佳性能,语言模型必须适应各种不同类型的语料对其性能的影响);基于最大熵的语言模型(通过结合不同信息源的信息构建一个语言模型。每个信息源提供一组关于模型参数的约束条件,在所有满足约束的模型中,选择熵最大的模型)

  • 实现CRFs需要解决三个问题:特征选取,参数训练,解码

  • 大部分基于词的分词方式采用的是生成式模型,而基于字的分词方式采用区分(判别)式模型

  • 在语义网络中,内涵是指词本身的意义,是对词代表的概念描述;外延是指词所指代的物体

  • IBM模型
    在这里插入图片描述

每章考点
章节考点
02数学基础信息论中的各种值计算
03形式语言与自动机形式语言推导
形式语言与自动机的转换
05语言模型概率计算
数据平滑
07概率图模型HMM计算(前向后向维特比)
08词法分析正确率召回率计算

| | 最大匹配算法 |
| 09语法理论 | 复杂特征集与合一运算 |
| 10句法分析1 | 线图分析法 |
| | CYK |
| | PCFG |
| 11句法分析2 | 移进-归约算法 |
| | Arc-eager 分析算法 |
| | 依存句法分析器性能评价 |
| | 依靠中心词将短语结构可转换为依存结构 |
| 12语义分析 | 语义网络( 概念、关系、语义网络表示、事件的语义关系、基于语义网络的推理分析) |
| | 词义消歧( 规则方法、统计方法、词典法)|
| 13篇章分析 | 回指 |
| 15机器翻译 | 基于短语的翻译模型 |

大题猜测
  1. 朴素贝叶斯
  2. 形式语言/形式语言与自动机的转换
  3. 根据二元文法求句子概率,结合数据平滑方法
  4. 语言模型的自适应
  5. HMM
  6. 最大匹配法
  7. 线图分析法(点规则)
  8. CYK,步骤1.汉语分词和词性标注;2.构造识别矩阵;3.执行分析过程
  9. 移进-归约算法 或者 Arc-eager 分析算法
  10. 依靠中心词将短语结构转换为依存结构
  11. 基于短语的翻译模型
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
必复习的知识点
ppt重点内容页数
03讲形式语法的定义7
最左推导18
文法分类(见下图)21开始
正则文法和有限自动机转化45
下推自动机的例子59
习题1,2,484
05讲n-grams12
根据2元文法求句子概率26
07讲HMM全部
08讲连词引起歧义的结构22,23,24
评价指标P,R,F140
分词中的最大匹配算法47
分词中的最少分词法51
09讲复杂特征集合一运算例子19
10讲线图分析法例子(可以看老师上课的图,在手机中)29
CYK算法例子(可以看老师上课的图,在手机中)55
PCFG(与HMM类似)59开始
11讲依存句法分析,移进-归约法(见微信的照片)23
依存句法分析,Arc-eager(老师上课讲过)25
依存句法分析性能评价39开始
与中心词有关的依存结构52
12讲语义网络与知识图谱37
13讲回指5
15讲基于短语的翻译模型!!重要 之前自己没看过96
译文评估方法,之前自己没看过131
17讲课下去了解attention
19讲相关概要估计16
朴素贝叶斯30

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

有时间就复习的知识点
ppt重点内容页数
05讲数据平滑30
语言模型的自适应59
12讲词义消歧49
16讲机器翻译刘洋老师的方法
  • 18
    点赞
  • 93
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值