是什么
句法分析的主要任务是:识别出 句子所包含的 句法成分
,以及这些成分之间的关系
。
- 句法分析结果一般使用
句法树
来表示。
分类
根据侧重目标可分为
- 完全句法:获取整个句子的 句法结构 或者 完全短语结构为目;也称为句法结构分析(Syntactic Structure Parsing),或 短语结构分析(Phrase Structure Parsing);
- 局部句法: 关注局部的一些成分;如 依存句法分析(Dependency Parsing)。
句法分析方法可分为:
- 基于规则的方法
缺点:处理大规模文本时,存在 语法规则覆盖有限、系统可迁移差的问题。 - 基于统计的方法
- 兴起缘由:大规模标注树库的建立;句法分析器(parser)的性能不断提高。
- 模型本质:面向候选树的评价方法。
发展
句法分析已经从句法结构分析转向依存句法分析,原因:
1、因为通用数据集Treebank(Universal Dependencies treebanks)的发展,虽然该数据集的标注较为复杂,但是其标注结果可以用作 多种任务
(命名体识别或词性标注)且作为不同任务的评估数据
,因而得到越来越多的应用;
2、句法结构分析的语法集是由固定的语法集组成,较为固定和呆板;
3、依存句法 分析树标注简单 且 parser准确率高。
统计分析方法
统计分析方法的重要元素
- 语料数据集
- 评价体系
数据集
句法分析的数据集是树形标注结构,称为 树库。
以下为一个句法树(Syntax Tree)
常用树库
- 目前使用最多的是 英文宾州树库(PTB, Penn TreeBank),来自 美国宾夕法尼亚大学。
PTB 前身为 ATIS(Aria Travel Infomation System) 和 WSJ(Wall Street Journa) - 中文树库
- 中文宾州树库(CTB, Chinese TreeBank);
由宾夕法尼亚法学标注,是目前绝大多数中文句法分析研究的基准语料库; - 清华树库(TCT,Tsinghua Chinese TreeBank)
- 台湾中研树库(Sinica TreeBank)
- 中文宾州树库(CTB, Chinese TreeBank);
PS: 不同树库有不同的标记规范;使用树库A的句法分析器,就应使用A的标记体系来解释。而非A分析,B解释。
句法分析的评测
评测的主要任务是:评测句法分析器生成的树结构 与 手工标注的树结构 之间的 相似程度。
主要考虑两方面的性能:
- 满意度:测试句法分析器是否 适合 或胜任 某个特定的NLP任务。
- 效率:对比句法分析器的运行时间。
主流评测方法:PARSEVAL 评测体系。
特点:粒度适中。
主要指标:
- 准确率:分析正确的短语个数,占
分析结果
中所有短语个数的比例; - 召回率:分析得到的正确短语个数,占
标准分析树
全部短语个数的比例; - 交叉括号数:分析得到的某一个短语的
覆盖范围
与 标准句法分析结果的某个短语的覆盖范围 存在重叠
又不存在包含关系
。即构成了一个交叉括号。
句法分析方法
句法分析没有词法分析成熟。
在所有算法中,以 短语结构树
为目标的句法分析器 研究的最彻底。
很多形式对应的句法分析器,都能通过对 短语结构语法(特别是 上下文无关文法)的改造而得。
常见句法分析方法
- PCFG
- 最大间隔马尔科夫网络
- CRF
- 移进 - 归约
PCFG
PCFG:Probabilistic Context Free Grammar,概率上下文无关文法
或称为SCFG(Stochastic Context Free Grammar),随机上下文无关文法。
一个概率上下文无关文法(PCFG)是一个五元组(N,∑,S,R,P):
(1)一个非终结符集N
(2)一个终结符集∑
(3)一个开始非终结符S∈N
(4)一个产生式集R
(5)对于任意产生式r∈R,其概率为P®
资料
- Vico_Men:NLP底层技术之句法分析
https://blog.csdn.net/qq_28031525/article/details/79187080