Web服务分类及语义标注算法研究

本文摘抄自一篇论文以做学习



1、web服务定义

从技术方面,Web服务是基于XML的、采用SOAP协议的一种软件互操作的基础设施;可以被URI标识的应用软件,其接口和绑定由XML描述、发现,并可以与其他基于XML消息的应用程序交互

从功能角度,Web服务基于TCP/IP、HTTP、XML等规范而定义,具备在Web上链接文档的浏览、事物的自动调用、服务的动态发布和发现的功能单元;市一中新型的Web应用程序,具有自包含、自描述以及模块化的特点,可以用过Web发布、查找和实现网络调用。

从应用的层面来说,Web服务是用于应用集成的,将原有的面向对象、面向组件的软件系统改造为基于消息、面向服务的松散耦合系统,或者构建新的松散耦合系统的一种协作设施

 

2、语义web服务

语义Web服务,就是利用Ontology来描述Web服务,使服务具有语义信息。语义Web和Web服务是语义Web服务的两大支撑技术。OWL-S(Web服务标记语言)是连接两大技术的桥梁。

通过对WSDL文档进行标注,是的Web具有语义信息。使计算机能够读、发布、交换信息和知识,促进在开放式的Web上实现自动化服务组合、调用和监控。

 

方法:基于概念频率的Web服务语义标注方法,通过得到概念的不同属性的使用频率,进而转化成各属性在标注中的权值来提高语义标注的准确性

 

3、服务获取

通过网络爬虫和手工手机相结合的方式获取服务。

借助google搜索引擎,查找包含特定关键词以及“wsdl”字符串的文档连接,编写一段非常简单的程序代码分析网页,进而获取wsdl文档。另外,包含“asmx”字符串的文档连接也可以获得wsdl文件。利用搜索引擎自动爬取web服务,执行效率高。

手工收集web服务的途径有两种:首先从Internet上的真实Web服务注册中心,如www.seekda.com、www.xmethodc.com、ws.serviceobjects.com等,浏览并下载wsdl文档,这些网站列出了Web服务的提供者、服务所属国家、服务接口信息以及服务实现。通过网站提供的服务描述文件的url可以链接到每个服务的wsdl文件。同时,我们下载了fan收集的1544个wsdl文档

 

4、特征提取:

         禁用此表(stopwords list)去掉a of by with to等介词、虚词和高频无用词

         文档频数法(DocumentFrequency),将在少于三个文档中出现的特征次和90%以上的文档中出现的特征词全部去掉,缩减关键词集合

 

5、领域本体是指某个领域中具有严格语义内涵的概念以及这些概念之间的相互关系

6、服务分类是指从一个事先定义好的分类体系中跳出一个最适合新服务的类别。

 

7、服务验证和解析

首先对待分类的Web服务进行有效性验证。有效分两种情况:1、WSDL定义的规范2、WSDL定义服务的可用性。通过网络爬虫获取的很多文件虽然是以wsdl字样结尾,但是文件不符合w3c对web服务的标准定义,需要通过服务网络设计的验证器过滤掉。另一种情况:某些wsdl文件定义是合法的,但是无法调用,原因如下:

A)     wsdl文件并非真正定义了一个服务,而只是一些教材说明,是讲解wsdl时的范例,这些wsdl被抛弃

B)     wsdl确实是发布的web服务,但是在测试的时候不可用。由于不能明确判断这些服务是暂时不可用还是已经背撤销掉了,所以将这些服务以正常服务的方式加入到服务网络中,同时给出一个test标志,设计服务网络qos轮询机制进一步检测服务的可用性,

 

通过验证的web服务,需要经过解析处理,提取相应的内容添加到服务网络。

 

8、服务分类算法步骤

服务分类算法分为三个步骤:首先从web服务描述文件(通常是wsdl文档)中获取描述这个服务的特征向量。然后利用WordNet语义词典,计算这个特征向量与领域中心向量的语义距离,根据计算结果,选择最合适的领域作为服务类别。

 

9、WSDL与本体对比分析

大多数情况下,人们只关注web服务的输入参数和输出概念实体,可以认为服务的参数类型是web服务服务语义的关键。在wsdl文档中有两种参数类型,简单参数和复合参数,简单参数指的是wsdl中参数的数据类型是基本数据类型,复合参数指的是除简单参数概念意外的wsdl参数。无论是简单参数还是复合参数,其信息主要是由参数名称和数据类型表达。对于简单概念,标注的时候主要考虑参数的名称;复合概念的标注考虑名称的同时要加入对类型结构的分析。

领域本体是owl语言描述的,概念是领域本体的基本元素,本体的语义信息,主要是靠概念这件的关联表达的,可以通过本体推理获取概念之间的关系。本体的概念主要包括概念名称、本体概念的继承信息、本体的结构属性、本体的关系属性以及本体概念和属性的解释。

概念名称是概念的标识,继承信息确立了类之间的父子关系,子类可以直接继承父类的所有属性,并且进行扩充。

结构属性表示类的结构信息,其属性值表达类的内涵,概念的数据属性和对象属性哦度属于其结构属性;关系属性表达类之间的关联,属性值是类的外延信息。

本体的概念解释是本体具有语义表达能力的基础,这里要求本体的概念是共享的,最可行的共享解释是自然语言,人们常利用自然语言来表述概念、属性的名称,简单易懂,一般采用英文为自然语言

 

10、服务标注的流程

Web服务自动语义标注的基本流程,是对wsdl文档中每一个参数概念pc,首先判断其类型,若是简单概念,直接与领域本体中概念oc比较,通过文本分析和类型分析,找到匹配度最高的本体概念进行标注;若是复合概念,首先对概念名称进行文本分析,接着对其进行分解,分别求的pc自概念和oc自概念最大匹配度,若pc自概念仍是复合概念,则递归调用复合概念匹配过程,最后得到综合匹配度,从本体概念库中选择综合匹配度最大本体概念OCmax,以此作为pc的标注概念。

 

 

11、辅助词汇表

电子词典(E-dictionary)支持同意近义词计算

禁用此表(Bad WordTable,BWT)过滤介词、虚词等

领域专有此表(DependentWord Table,DeWT)

 

12、概念匹配

服务标注的核心在于如何求的概念匹配度,即计算wsdl文档参数概念与本体概念的匹配程度,也可以表述为本体概念对wsdl参数覆盖程度

 

13、简单概念匹配

在关键字的匹配过程中,以wordNet为基础,简单概念的类型信息即为String int等基本类型,这些与本体中的数据类型属性相同,因而在标注的时候可以直接比较。需要说明的是,这里的标注是本体对服务的解释,因而只要本体概念类型“大于”wsdl概念即可。

 

14、复合概念的匹配

在wsdl文档中,复合概念的定义只存在于schema中,message中出现的复合类型只是schema定义的实例,复合概念的类型匹配实质上是一个递归的过程,将复合概念分解,依次去匹配其成员概念。匹配过程中,复合概念仍和本体概念进行匹配,复合概念的子元素匹配本体概念中的属性,这里,子元素核能是简单概念,也可能是复合概念,需要迭代计算相似度。

 

15、造成标注错误的原因主要存在以下几个方面:

(1)      领域本体不够完善,使得有些wsdl概念确实无法找到与之匹配的本体概念

(2)      当未知的缩写词出现时,会感染标注结果

(3)      Wsdl定义的随意性而导致的标注失败

(4)      其他原因

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值