NLP - 句法分析（Synatic Parse）

最新推荐文章于 2024-09-10 21:42:49 发布

小田_

最新推荐文章于 2024-09-10 21:42:49 发布

阅读量2.4k

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/weixin_45390999/article/details/115272827

版权

NLP 专栏收录该内容

26 篇文章 5 订阅

订阅专栏

文章目录

是什么

句法分析的主要任务是：识别出句子所包含的 句法成分，以及这些成分之间的关系。

句法分析结果一般使用 句法树 来表示。

分类

根据侧重目标可分为

完全句法：获取整个句子的句法结构或者完全短语结构为目；也称为句法结构分析（Syntactic Structure Parsing），或短语结构分析（Phrase Structure Parsing）；
局部句法：关注局部的一些成分；如依存句法分析(Dependency Parsing)。

句法分析方法可分为：

基于规则的方法
缺点：处理大规模文本时，存在语法规则覆盖有限、系统可迁移差的问题。
基于统计的方法
- 兴起缘由：大规模标注树库的建立；句法分析器（parser）的性能不断提高。
- 模型本质：面向候选树的评价方法。

发展

句法分析已经从句法结构分析转向依存句法分析，原因：
1、因为通用数据集Treebank（Universal Dependencies treebanks）的发展，虽然该数据集的标注较为复杂，但是其标注结果可以用作 多种任务（命名体识别或词性标注）且作为不同任务的评估数据，因而得到越来越多的应用;
2、句法结构分析的语法集是由固定的语法集组成，较为固定和呆板；
3、依存句法分析树标注简单且 parser准确率高。

统计分析方法

统计分析方法的重要元素

语料数据集
评价体系

数据集

句法分析的数据集是树形标注结构，称为树库。
以下为一个句法树（Syntax Tree）

在这里插入图片描述

常用树库

目前使用最多的是英文宾州树库（PTB, Penn TreeBank），来自美国宾夕法尼亚大学。
PTB 前身为 ATIS(Aria Travel Infomation System) 和 WSJ(Wall Street Journa)
中文树库
- 中文宾州树库（CTB, Chinese TreeBank）；
  由宾夕法尼亚法学标注，是目前绝大多数中文句法分析研究的基准语料库；
- 清华树库（TCT，Tsinghua Chinese TreeBank）
- 台湾中研树库（Sinica TreeBank）

PS: 不同树库有不同的标记规范；使用树库A的句法分析器，就应使用A的标记体系来解释。而非A分析，B解释。