新手入门,请多理解,本文原博主 yangshi1111
主要讲和14年那篇论文不一样的地方
除了WSJ of PTB 的英文资源,还使用了中文和捷克语资源
关于和其他三个子任务的比较已经在14年的那一片paper中简述了,没有什么太大的区别
关于三种表示,DM表示和上文没什么区别,PAS表示除了使用英文资源还利用同样的技术使用了Penn Chinese Treebank(CTB) 的中文资源。在15年中将PCEDT换了一个名字,叫做PSD,但都是使用了t-树的语义依赖关系
SDP的目标表示依旧是图表示,图中的节点,除了词,词干,词性和flag标志,还多了一个可选的帧信息例如使意谓词和起始谓词的关系,边依旧表示语义依存关系。对应的,提供的数据也比以前多了一列表示帧信息。
数据集依旧使用了WSJ 语料库,并在语句和单词层面上做了同步并排除了一些不好的数据,如缺乏黄金标准分析,无法对齐(缺少词干,词性),存在环路等。最后排除掉不好的数据后,我们选择了35657条句子作为训练数据,1410条域内句子和1849域外句子作为测试数据。
除了额外的域外测试数据和帧信息外,我们为了一些表示还包括了其他语言,我们选择了31113条额外的中文语句作为PAS目标表示的训练数据,42076条捷克语作为PSD的训练语句,此外对于这些额外的语言,我们还别进行了域内域外测试。
统计对比:
PAS: 更小细颗粒度(1)且标签更少,拥有更多的边(3)
DM: 单节点比较多(2),DM有不少无top顶点的分立的图,有提高空间()
PCEDT: 单节点比较多(2), 将出现频率高的限定词(determiner,