本文以哈工大、腾讯这两个句法依存关系的测试实例来说明从语法角度来分析依存关系的细节问题。
一、Tencent的句法分析
测试网址:http://nlp.qq.com/semantic.cgi#page3
测试结果
句子1:提现额度如何增加
关系:
结果:错误
说明:“额度”与“增加”的关系应该是“FOB”
句子2:如何增加提现额度
关系:
结果:错误
说明:“提现”与“额度”的关系应该是“ATT”,“增加”与“额度”的关系应该是“VOB”
句子3:输入一段想分析的文字
关系:
结果:错误
说明:“一段”应该是修饰“文字”,关系为“ATT”
句子4:检查汽车的制动器
关系:
结果:错误
说明:“汽车”应该是修饰“制动器”,关系为“ATT”,“检查”与“汽车”的关系应该是“VOB”
句子5:评估汽车的安全性
关系:
结果:错误
说明:“汽车”应该是修饰“安全性”,关系为“ATT”,“评估”与“汽车”的关系应该是“VOB”
【注】上述例子的测试时间为:2016年6月20日14:51:00,可能腾讯会定期优化,以后结果可能与当前测试的结果不一致。
从上面的5个例子可以明显看出句法分析的明显弊端:
1.从“句子1”的结果可以看出:单纯从语法角度很难区分是主语还是宾语
2.从“句子2”、“句子5”的结果可以看出:动词名词之间存在着搭配关系,这种关系只能从语义角度解决(增加==》额度、评估==》安全性)
3.从“句子3”的结果可以看出:量词修饰的词也需要从语义角度才能解决
4.从“句子4”的结果可以看出:整体与部分的关系(“汽车”包含“制动器”)从语法角度无法做的
二、哈工大的句法分析
句子2:如何增加提现额度
关系:
结果:正确
其他4句:句子1、3、4、5与腾讯的结果完全一致,这里就不列出了
小结
当前句法分析的准确性已经提高了很多,但仍然有不少缺陷,感觉离商业还有一段不小的距离。
要完全解决上述问题,个人认为只能从语义上解决—-语义依存关系。
语义依存关系:标注大量语料,写一套自动学习的算法。。。