IMGpedia: a Linked Dataset with Content-based Analysis of Wikimedia Images

IMGpedia: a Linked Dataset with Content-based Analysis of Wikimedia Images(维基媒体图像基于内容分析的链接数据集)

摘要:

IMGpedia是一个大型链接数据集,它合并了来自Wikimedia Commons数据集的图像的视觉信息:它汇集了1500万张图像的视觉内容描述符、这些图像之间的4.5亿个视觉相似关系来自DBpedia Commons的图像元数据链接以及与单个图像相关的DBpedia资源链接。在本文中,我们描述了IMGpedia数据集的创建,概述了它的模式和内容的统计信息,提供了结合图像的语义和视觉信息的示例查询,并讨论了对该数据集的其他设想用例。
资源类型:

数据集

永久链接:

https://dx.doi.org/10.6084/m9.figshare.4991099.v2

1、介绍

许多数据集遵循语义Web标准和关联数据原则在Web上发布。在最终形成的“数据网络”的核心。
我们可以找到像DBpedia这样的链接数据集(数据集中包含从维基百科自动提取的结构化数据);以及Wikidata(用户可以直接以结构化格式添加和管理数据),我们还可以找到与多媒体相关的各种数据集,例如描述电影的LinkedMDB,描述乐队和类型的BBC Music,等等。最近,DBpedia Commons发布了,是从Wikimedia Commons中提取的元数据:一个丰富的多媒体资源,包含3800万免费使用的媒体文件(图像、音频和视频)

相关工作:

在描述多媒体的现有数据集中,重点一直是捕捉多媒体文件的高级元数据(例如,作者、创建日期、文件大小、宽度、持续时间),而不是多媒体内容本身的音频或视觉特征。然而,正如之前的研究(如[8,1,4])所提到的那样,将结构化元数据与基于多媒体内容的描述符合并会带来多种应用,如语义增强的多媒体发布、检索、保存等。虽然这样的作品提出了用语义Web格式描述多媒体文件的音频或视觉内容的方法,但我们不知道任何包含基于内容的多媒体文件描述符的公共链接数据集。例如,DBpedia Commons并不直接从Wikimedia Commons的多媒体文件中提取任何音频/视觉特性,而只是从描述这些文件的文档中捕获元数据。

贡献:

按照这些方法,我们创建了IMGpedia:一个结合了****Wikimedia Commons图像的视觉描述符和视觉相似性关系的链接数据集,它与DBpedia Commons数据集(提供图像的元数据,如作者、许可等)和DBpedia数据集(提供与图像相关的资源的元数据)相链接。我们探索的IMGpedia的初始用例是对图像

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值