PAROT: Translating natural language to SPARQL(PAROT:将自然语言翻译成SPARQL)--06

Author:Peter Ochieng(<–这个是作者!)

该算法接受用户提交的由多个单词组成的查询(句子sentence)作为其输入;然后对输入进行评估如果这个句子是一个复合语句(compound)使用函数checkCompound(S)。函数checkCompound(S)应用许多语法(syntactic)约束(constraints-限制)将句子分类为复合(compound)或非复合(No-compound)。

图4展示了这个语法约束(syntactic constraints):
Fig. 4. POS tag patters to flag compound sentences in a relation based queries.
Fig. 4. POS tag patters to flag compound sentences in a relation based queries.
图4 POS标记模式用于标记基于关系的查询中的复合句。
https://baike.baidu.com/item/%E8%AF%8D%E6%80%A7%E6%A0%87%E6%B3%A8/2783103

词性标注(Part-Of-Speech tagging, POS tagging)也被称为语法标注(grammatical tagging)或词类消疑(word-category disambiguation),是语料库语言学(corpus linguistics)中将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术。词性标注可以由人工或特定算法完成,使用机器学习(machine learning)方法实现词性标注是自然语言处理(Natural Language Processing, NLP)的研究内容。

一个复合语句应该由以下序列(sequence)组成:

  1. 动词(verb)后跟介词(preposition),其后跟名词(noun)、连词(conjuction)和动词(verb)(e.g.Which female actor played in Casablanca and is married to writer born in Rome-哪位女演员在《卡萨布兰卡》中扮演角色,并且嫁给了一位出生于罗马的作家)
  2. 动词(verb)后接名词(noun),再接一个连接词(conjuction)和名词(noun)(e.g.Which river traverses Mississippi or Alaska-哪条河穿过密西西比或阿拉斯加)
  3. 名词(noun)后面接一个连接词(conjuction),再接一个名词(noun)和一个动词(verb)(e.g.Which rivers and lakes traverse Alaska-哪些河流和湖泊横穿阿拉斯加)
  4. 一个副词(adverb)的最高级(superlative)形式连接一个连词(conjuction),再接一个副词(adverb)的最高级(superlative)形式连接一个动词(verb)(e.g.e.g. Which is the least and most populated state in America-哪一个州是美国人口最少和最多的州)-[这个本人在翻译的时候,觉得有点儿什么问题,比如1-4条里面不同词性不同形式的连接上好像翻译的意思不太对?!]

补充:发现1-4这么翻译的话!不容易理解,也可能是翻译错了!所以,直白地解释一下这个图的意思:图4中的四个标记模式分别对应于下面的四条内容。第一条、V-P-DT-N-CC-V对应于verb-preposition-noun-conjuction-verb;第二条、V-N-CC-N对应于verb-noun-conjuction-noun;第三条、N-CC-N-V对应于noun-conjuction-noun-verb;第四条、RBS-CC-RBS-V对应于adverb-superlative-conjuction-adverb-superlative-verb。

??在POS词性标注里面:
限定词:DT 限定词包括指示词(如这、那、该)和诸如“每、各、前、后”等词。限定词不包括基数词和序列词。
其实,我也不太懂?按照这个理解好像其他的也对不上号!好像分词里面还可以自定义用户词典,所以这个也许大概或许可以理解为作者的独创??

《 词性标注实战》:https://blog.csdn.net/qq_36134437/article/details/103156759?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-1.control&dist_request_id=&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-1.control
《Stanford Corenlp学习笔记——词性标注 》:https://www.cnblogs.com/tonglin0325/p/6850901.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值