NLP - 句法分析(Synatic Parse)


是什么

句法分析的主要任务是:识别出 句子所包含的 句法成分,以及这些成分之间的关系

  • 句法分析结果一般使用 句法树 来表示。

分类

根据侧重目标可分为

  • 完全句法:获取整个句子的 句法结构 或者 完全短语结构为目;也称为句法结构分析(Syntactic Structure Parsing),或 短语结构分析(Phrase Structure Parsing);
  • 局部句法: 关注局部的一些成分;如 依存句法分析(Dependency Parsing)。

句法分析方法可分为:

  • 基于规则的方法
    缺点:处理大规模文本时,存在 语法规则覆盖有限、系统可迁移差的问题。
  • 基于统计的方法
    • 兴起缘由:大规模标注树库的建立;句法分析器(parser)的性能不断提高。
    • 模型本质:面向候选树的评价方法。

发展

句法分析已经从句法结构分析转向依存句法分析,原因:
1、因为通用数据集Treebank(Universal Dependencies treebanks)的发展,虽然该数据集的标注较为复杂,但是其标注结果可以用作 多种任务(命名体识别或词性标注)且作为不同任务的评估数据,因而得到越来越多的应用;
2、句法结构分析的语法集是由固定的语法集组成,较为固定和呆板;
3、依存句法 分析树标注简单 且 parser准确率高。


统计分析方法

统计分析方法的重要元素

  • 语料数据集
  • 评价体系

数据集

句法分析的数据集是树形标注结构,称为 树库。
以下为一个句法树(Syntax Tree)

在这里插入图片描述


常用树库
  • 目前使用最多的是 英文宾州树库(PTB, Penn TreeBank),来自 美国宾夕法尼亚大学。
    PTB 前身为 ATIS(Aria Travel Infomation System) 和 WSJ(Wall Street Journa)
  • 中文树库
    • 中文宾州树库(CTB, Chinese TreeBank);
      由宾夕法尼亚法学标注,是目前绝大多数中文句法分析研究的基准语料库;
    • 清华树库(TCT,Tsinghua Chinese TreeBank)
    • 台湾中研树库(Sinica TreeBank)

PS: 不同树库有不同的标记规范;使用树库A的句法分析器,就应使用A的标记体系来解释。而非A分析,B解释。


句法分析的评测

评测的主要任务是:评测句法分析器生成的树结构 与 手工标注的树结构 之间的 相似程度。

主要考虑两方面的性能:

  • 满意度:测试句法分析器是否 适合 或胜任 某个特定的NLP任务。
  • 效率:对比句法分析器的运行时间。

主流评测方法:PARSEVAL 评测体系。
特点:粒度适中。

主要指标:

  • 准确率:分析正确的短语个数,占 分析结果中所有短语个数的比例;
  • 召回率:分析得到的正确短语个数,占标准分析树全部短语个数的比例;
  • 交叉括号数:分析得到的某一个短语的 覆盖范围 与 标准句法分析结果的某个短语的覆盖范围 存在 重叠 又不存在 包含关系。即构成了一个交叉括号。

句法分析方法

句法分析没有词法分析成熟。
在所有算法中,以 短语结构树 为目标的句法分析器 研究的最彻底。
很多形式对应的句法分析器,都能通过对 短语结构语法(特别是 上下文无关文法)的改造而得。


常见句法分析方法

  • PCFG
  • 最大间隔马尔科夫网络
  • CRF
  • 移进 - 归约

PCFG

PCFG:Probabilistic Context Free Grammar,概率上下文无关文法
或称为SCFG(Stochastic Context Free Grammar),随机上下文无关文法。

一个概率上下文无关文法(PCFG)是一个五元组(N,∑,S,R,P):
(1)一个非终结符集N
(2)一个终结符集∑
(3)一个开始非终结符S∈N
(4)一个产生式集R
(5)对于任意产生式r∈R,其概率为P®


资料

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值