OpenKE复现与使用(二):理解数据集,理解N-Triples

0.阅读源码可知,想要把自己的数据集带进去需要经过预处理,把以不同格式存储的三元组先处理成以下格式:

Datasets are required in the following format, containing five files:

  • train.txt :the training file in a format with (e1, e2, rel) per line, the first line is the number of triples.
  • valid.txt :the validation file, same format as train.txt.
  • test.txt :the testing file, same format as train.txt.
  • entity2id.txt :all entities and corresponding ids, one per line.
  • relation2id.txt:all relations and corresponding ids, one per line.

上面这段文字的来源是openke程序的官网:OpenKE - An Open-source Framework for Knowledge Embedding.

1.自己在网上下载的数据集有不同的格式,对应不同的读取方法,具体可参考:知识图谱的四种存储格式,N-Triples、Turtle、JSON-LD和RDF/XML。 - 知乎 (zhihu.com)

2.我下载的数据集是乳腺癌语义电子病历,记载了十万个乳腺癌病人初诊电子病历,以.nt后缀文件存储,下载地址为APDG: Advanced Patient Data Generator (vu.nl)

3.查阅资料后了解到nt格式就是每行一个三元组,实体、关系都是最完整的格式,有前缀,很长那种。

看不太懂的科普:

干货 | 初学者入门必看的“知识图谱”解读(上)-腾讯云开发者社区-腾讯云

RDF 1.1 N-Triples-CSDN博客

知识图谱——语义网中的知识表示 - 知乎

        N-Triples(nt)是RDF(Resource Description Framework,资源描述框架)的一种序列化表示方法,RDF是一种事物的表示方法和手段。

  • R:Resource,即资源,能唯一标识的对象源,例如:地点、人、事件、餐馆等;
  • D:Description,资源的描述,包括资源属性、关系等;
  • F :Framework,为资源描述提供了描述的语法和模型。

        N-Triples:多个三元组来表示RDF数据集,比如下面的三行,就是资源A1A2S2的信息,第一行表明这一行描述的是标签(label),值为“tumorsize”(肿瘤尺寸);第二行表示这个尺寸的值是0.5,第三行表示单位是cm。

<http://wasp.cs.vu.nl/apdg#VMRBC_ZSH2013A1000001_A1A2S2> <http://www.w3.org/2000/01/rdf-schema#label> "TumorSize".
<http://wasp.cs.vu.nl/apdg#VMRBC_ZSH2013A1000001_A1A2S2> <http://wasp.cs.vu.nl/apdg#value> "0.5"^^<http://www.w3.org/2001/XMLSchema#decimal>.
<http://wasp.cs.vu.nl/apdg#VMRBC_ZSH2013A1000001_A1A2S2> <http://wasp.cs.vu.nl/apdg#unit> "cm".

        当然,除了这种可以直接读出来的字符串,还会有一些类似于网址的东西(URI),一般来说:

  • 每行表示一个三元组,找到每行的主语、谓语和宾语。
  • 主语和谓语通常是URI,表示资源和属性,而宾语可以是URI、字面量或其他资源。
  • 使用空格来分隔三元组的组成部分,使用句点来结束每个三元组。

URI查询:https://www.cnblogs.com/xiaoqi/p/kg-study-part-1.html

4.到点该下班了~明天试试把nt格式的三元组提出来,变成openke需要的txt格式,或者看看如果很难的话就直接手输入几个!反正我找到的数据集都是英文的,我自己做的是中文的(小声)

  • 31
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
《新概念51单片机C语言教程:入门、提高、开发、拓展》从实际应用入手,以实验过程和实验现象为主导,循序渐进地讲述51单片机C语言编程方法以及51单片机的硬件结构和功能应用。全书共分5篇,分别为入门篇、内外部资源操作篇、提高篇、实战篇和拓展篇。《新概念51单片机C语言教程:入门、提高、开发、拓展》内容丰富,实用性强,书中大部分内容均来自科研工作及教学实践,许多C语言代码可以直接应用到工程项目中。《新概念51单片机C语言教程》配套光盘提供13讲近30学时的教学视频和《新概念51单片机C语言教程》实例代码,可使读者更快更好地掌握单片机知识和应用技能。《新概念51单片机C语言教程》作者还可提供与《新概念51单片机C语言教程:入门、提高、开发、拓展》配套的单片机实验板。   《新概念51单片机C语言教程:入门、提高、开发、拓展》可作为大学本、专科单片机课程教材,适合于51单片机的初学者和使用51单片机从事项目开发的技术人员,也可供从事自动控制、智能仪器仪表、电力电子、机电一体化等专业的技术人员参考。 《新概念51单片机C语言教程:入门、提高、开发、拓展》组织:   全书分为勾5篇,入门篇、内外部资源操作篇、提高篇、实战篇和拓展篇   特别按照初学者所遇到的问题和需求路径安排全书内容   以应用需求为主线,搭建了单片机技术上下游的知识体系   从实际工程应用入手,通过实验过程和现象讲解单片机原理,可读性好   内容源于大量科研和教学实践,许多C语言代码可直接应用到工程项目中,实用性强   配套学习光盘,并可提供学习用实验板,可以边学边练学习资源:   读者对象:   高校电子信息类和机电类专业本/专科师生   高校大学生创新基地师生   51单片机C语言编程初学者   计算机、自动控制、智能仪器仪表、电力电子、机电一体化技术人员

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值