#gStore-weekly | gBuilder功能详解之非结构化数据抽取模型

对于非结构化数据进行数据抽取时需要用到实体识别、关系抽取、属性抽取等众多信息抽取算法。gBuilder在非结构化抽取功能中提供了一系列算法和算子,可通过拖拽的方式进行抽取流程流水线设计。

但在实际业务场景中,gBuilder内置的信息抽取模型并不能满足业务的需要,或者使用者本身具有较强研发能力,能够设计准确度更高的算法和模型。因此gBuilder提供了模型标注和训练功能,能够对现在平台已经提供的算法和模型进行重新训练。同时在模型方面采用了松耦合设计,即gBuilder使用者可以通过注册的方式来使用自己本地的模型,该模型运行在使用者本地环境,数据也具有很高安全性保障。

1. 模型标注

1.1 试用版

在模型标注功能上试用版和正式商用版提供不同的功能,商用版的模型标注更加便捷。

1.1.1 标注类型管理

用户在本部分进行标签管理,用户可增加自己在后面实体抽取和关系抽取过程中需要的标签。

可选择增加实体和关系类型的标注:

例如增加机构标注实体:

可根据增加的实体和关系类型名称来进行实体和关系的标注。

1.1.2 NER标注

该部分用户使用已经添加好的NER(实体)类型的标注,来对文本进行标注。首先输入要标注的文本内容:

例如我们输入一句“小明出生于重庆,毕业于北京大学,小明的弟弟是小洪。”文本:

然后开始标注,选择实体类型和实体名称即可实现标注:

同时可在本界面实现标注好的数据的导入导出。

导出的数据格式如下所示:

1.1.3 RE标注

同样的用户也可对关系进行标注,选择关系类型和对应的实体开始标注:

标注好关系后,导出的数据格式如下所示:

1.2 正式版(商用)

在商用版提供更加丰富和简单的模型标注功能。可通过直接在页面选择文本进行标注以及直接通过拉线的方式进行关系的标注,极其简单易用,降低标注难度。同时针对标注部分,我们团队研发了专业的标注平台gMark,复杂数据标注人员快速标注数据,并支持多人协同标注工作。在后续weekly中也会进行详细介绍。

2. 模型训练

用户可在模型中心对非结构化抽取中的模型进行训练,该功能可将gBuilder现有模型来适应具体的应用场景和数据需要。

选择模型,然后上传训练数据进行模型训练:

模型上传的训练数据会有一个训练文件示例,可根据模板进行数据准备,也可利用模型标注后的数据导出再上传到该部分进行模型训练,具体的数据示例如下所示:

训练过程中如下所示:

若模型训练出错也会进行响应信息提示,训练成功会现实训练完成,同时也可在该页面对单个模型的详细信息进行查看:

3. 模型注册

针对本身具有信息抽取能力的使用者,可通过自定义端点(Endpoint),可以灵活地将自己的数据处理模型或代码嵌入到 gBuilder 非结构化数据知识图谱构建流程中。从而高效、准确、快速的实现非结构化数据的抽取,实现自定义端点的方法及说明请参见文档与示例(https://github.com/pkumod/gbuilder-endpoint-example)。具体如下图所示:

注册模型需要设置端点名称、URL地址以及模型的类型等信息,通过该功能就可以在gBuilder流水线抽取流程构建进行使用开发者自己的模型。

若大家在实际项目中需要使用gBuilder可联系运营同学或者发送邮件进行项目层面合作沟通。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值