学长的话:之前做的笔记(写的有点乱不要在意),现在拿出来翻了一翻,我研一一直在实验室搬砖,课基本没怎么上,期末剩下两周开始复习nlp,ml,ai三门专业课,均分也有90+。所以现在还没复习的学弟学妹们不要慌,这三门考试都不难,看看我整理的两个复习笔记,再看看老师的ppt,没问题的!
上次考试知识点
-
连词引起歧义的结构
-
编辑距离(插入、删除、替换、交换)
-
有限状态自动机与正则文法之间的转化
-
复杂特征集的交集
-
三元文法(Tri-grams)
-
评价机器翻译译文质量的方法
-
分词系统的准确率、召回率和F1
-
依存关系树的性能指标
-
正向最大分词算法,逆向最大分词算法
-
线图句法分析算法(Chart Parser)
概念题知识点
-
问答式检索应用——Watson(沃森),DeepQA 问 答 系 统 是Watson实现的核心
-
TF-IDF的公式要记住
-
熵,联合熵,条件熵,连锁规则,熵率,相对熵(KL距离),交叉熵,困惑度,互信息,双字耦合度
-
文本摘要中消除冗余句子的方法是CSIS,MMR
-
ROUGE评测方法
-
语料库(corpus) 是存放语言材料的仓库 ( 语言数据库)
-
基于语料库进行语言学研究,被称为语料库语言学
-
词汇知识库的四种语义关系:同义关系,反义关系,上下位关系,部分关系
-
对汉字而言四元语法效果会好一些
-
语言模型参数估计的两个重要方法:训练语料,最大似然估计
-
数据平滑方法:加一法,减值法/折扣法(古德图灵估计),删除差值法
-
NLP中的知识库包括词汇语义库,词法句法规则库、常识库
-
语料库按内容构成和目的划分:异质的,同质的,系统的,专用的
-
语料库的类型:共时语料库与历时语料库
-
语料库设计需要考虑的问题:静态与动态,代表性和平衡性,规模,语料库的管理与维护
-
典型语料库:布朗语料库,LLC口语语料库,朗文语料库,宾夕法尼亚树库,北大的CLKB
-
语言的分类:曲折语(英语),分析语/孤立语(汉语),黏着语(日语)
-
UPenn Treebank 的词性标注集确定原则:可恢复性,一致性,不明确性
-
移进-归约算法
-
Arc-eager 分析算法
-
语义网络各概念之间的关系,主要由 IS-A,PART-OF, IS, COMPOSED-OF, HAVE, BEFORE,LOCATED-ON 等谓词表示
-
语言模型的自适应方法有:基于缓存的语言模型(在文本中刚刚出现过的一些词在后边的句子中再次出现的可能性往往较大);基于混合方法的语言模型(由于大规模训练语料本身是异源的,来自不同领域的语料无论在主题方面, 还是在风格方面, ,或者两者都有一定的差异,而测试语料一般是同源的,因此,为了获得最佳性能,语言模型必须适应各种不同类型的语料对其性能的影响);基于最大熵的语言模型(通过结合不同信息源的信息构建一个语言模型。每个信息源提供一组关于模型参数的约束条件,在所有满足约束的模型中,选择熵最大的模型)
-
实现CRFs需要解决三个问题:特征选取,参数训练,解码
-
大部分基于词的分词方式采用的是生成式模型,而基于字的分词方式采用区分(判别)式模型
-
在语义网络中,内涵是指词本身的意义,是对词代表的概念描述;外延是指词所指代的物体
-
IBM模型
每章考点
章节 | 考点 |
---|---|
02数学基础 | 信息论中的各种值计算 |
03形式语言与自动机 | 形式语言推导 |
形式语言与自动机的转换 | |
05语言模型 | 概率计算 |
数据平滑 | |
07概率图模型 | HMM计算(前向后向维特比) |
08词法分析 | 正确率召回率计算 |
| | 最大匹配算法 |
| 09语法理论 | 复杂特征集与合一运算 |
| 10句法分析1 | 线图分析法 |
| | CYK |
| | PCFG |
| 11句法分析2 | 移进-归约算法 |
| | Arc-eager 分析算法 |
| | 依存句法分析器性能评价 |
| | 依靠中心词将短语结构可转换为依存结构 |
| 12语义分析 | 语义网络( 概念、关系、语义网络表示、事件的语义关系、基于语义网络的推理分析) |
| | 词义消歧( 规则方法、统计方法、词典法)|
| 13篇章分析 | 回指 |
| 15机器翻译 | 基于短语的翻译模型 |
大题猜测
- 朴素贝叶斯
- 形式语言/形式语言与自动机的转换
- 根据二元文法求句子概率,结合数据平滑方法
- 语言模型的自适应
- HMM
- 最大匹配法
- 线图分析法(点规则)
- CYK,步骤1.汉语分词和词性标注;2.构造识别矩阵;3.执行分析过程
- 移进-归约算法 或者 Arc-eager 分析算法
- 依靠中心词将短语结构转换为依存结构
- 基于短语的翻译模型
必复习的知识点
ppt | 重点内容 | 页数 |
---|---|---|
03讲 | 形式语法的定义 | 7 |
最左推导 | 18 | |
文法分类(见下图) | 21开始 | |
正则文法和有限自动机转化 | 45 | |
下推自动机的例子 | 59 | |
习题1,2,4 | 84 | |
05讲 | n-grams | 12 |
根据2元文法求句子概率 | 26 | |
07讲 | HMM | 全部 |
08讲 | 连词引起歧义的结构 | 22,23,24 |
评价指标P,R,F1 | 40 | |
分词中的最大匹配算法 | 47 | |
分词中的最少分词法 | 51 | |
09讲 | 复杂特征集合一运算例子 | 19 |
10讲 | 线图分析法例子(可以看老师上课的图,在手机中) | 29 |
CYK算法例子(可以看老师上课的图,在手机中) | 55 | |
PCFG(与HMM类似) | 59开始 | |
11讲 | 依存句法分析,移进-归约法(见微信的照片) | 23 |
依存句法分析,Arc-eager(老师上课讲过) | 25 | |
依存句法分析性能评价 | 39开始 | |
与中心词有关的依存结构 | 52 | |
12讲 | 语义网络与知识图谱 | 37 |
13讲 | 回指 | 5 |
15讲 | 基于短语的翻译模型!!重要 之前自己没看过 | 96 |
译文评估方法,之前自己没看过 | 131 | |
17讲 | 课下去了解attention | |
19讲 | 相关概要估计 | 16 |
朴素贝叶斯 | 30 |
有时间就复习的知识点
ppt | 重点内容 | 页数 |
---|---|---|
05讲 | 数据平滑 | 30 |
语言模型的自适应 | 59 | |
12讲 | 词义消歧 | 49 |
16讲 | 机器翻译刘洋老师的方法 |