总结:OneKE-中英双语大模型知识抽取框架

一、概念

https://modelscope.cn/models/ZJUNLP/OneKE/summary
OneKE是由蚂蚁集团和浙江大学联合研发的大模型知识抽取框架,具备中英文双语、多领域多任务的泛化知识抽取能力,并提供了完善的工具链支持。OneKE以开源形式贡献给OpenKG开放知识图谱社区。

OneKE 主要聚焦基于 Schema 的可泛化信息抽取,采用了基于 Schema 的轮询指令构造技术,专门针对提升大模型在结构化信息抽取的泛化能力进行了优化,旨在通过提供中英双语、可泛化的大模型知识抽取,OneKE 在一定程度上具备统一、通用、可泛化的知识抽取能力。同时,配套开源 OpenSPG 及 DeepKE开源框架的支持,支持开箱即用。帮助研究人员和开发者更好地处理信息抽取、数据结构化、知识图谱构建等问题。

二、能力-功能-用途

用于:
实体命名识别(NER)
关系识别(RE)
知识图谱构建(KGC)
事件抽取(EE)
事件触发词识别(EET)
事件论元抽取(EEA)

基于非结构化文档的知识构建一直是知识图谱大规模落地的关键难题之一,因为真实世界的信息高度碎片化、非结构化,大语言模型在处理信息抽取任务时仍因抽取内容与自然语言表述之间的巨大差异导致效果不佳,自然语言文本信息表达中因隐式、长距离上下文关联存在较多的歧义、多义、隐喻等,给知识抽取任务带来较大的挑战。针对上述问题,蚂蚁集团与浙江大学依托多年积累的知识图谱与自然语言处理技术,联合构建和升级蚂蚁百灵大模型在知识抽取领域的能力,并发布中英双语大模型知识抽取框架OneKE,同时开源基于Chinese-Alpaca-2-13B全参数微调的版本。测评指标显示,OneKE在多个全监督及零样本实体/关系/事件抽取任务上取得了相对较好的效果。
在这里插入图片描述

三、核心要点

OneKE目前的开源模型版本提供了基于Schema的可泛化信息抽取。由于现有的抽取指令数据存在格式不统一、数据噪音、多样性弱等问题,OneKE采取了基于Schema的轮询指令构造技术,专门针对提升大模型在结构化信息抽取的泛化能力进行了优化,相关内容可查阅论文“IEPile: Unearthing Large-Scale Schema-Based Information Extraction Corpus Github”。

四、特点

更泛华地提取信息
基于Chinese-Alpaca-2-13B 全参数微调的版本

五、评估

六、其它

训练和推理建议至少具备20GB的显存

七、使用感受

暂未查询到加速相关信息,生成速度慢。主要用于自定义实体提取、关系提取、知识图谱、时间提取、时间触发提取、时间参数提取等。但模型太大,推理效率不足。推理一次超47s,fp16版推理质量可能会好些。

### OpenSPG 配置教程和文档 #### 目录结构及介绍 OpenSPG 项目具有特定的目录结构来帮助开发者更好地理解和使用该框架。主要目录及其功能描述如下[^1]: - `builder`: 包含用于构建知识图谱的各种工具和服务接口。 - `core`: 存储核心算法实现以及底层逻辑代码。 - `data`: 数据集存储位置,包括训练样本、测试样例等资源文件夹。 - `docs`: 文档资料存放处,提供详细的API说明和技术手册。 #### 开启服务端配置 为了启动 OpenSPG 服务端,在命令行执行以下 Docker Compose 命令可以轻松完成操作[^2]: ```bash docker-compose -f docker-compose-west.yml up -d ``` 这条指令会依据指定的 YAML 文件拉取所需镜像并启动容器化应用实例。 #### 使用 OneKE 工具链 当完成了必要的环境准备之后——比如安装依赖库、下载预训练参数等等——用户能够依照官方给出的指导快速上手 OneKE 功能模块。这其中包括但不限于定义好 Schema 来表征实体间关系模式;利用内置的支持函数来进行语义解析工作;借助强大的SFT(Structure Fine-Tuning)机制优化性能表现等方面的内容[^3]. #### 创建新项目的服务设置 如果打算基于此平台开发新的应用程序,则可以通过下面这个简单的 CLI 调用来初始化一个新的工程模板: ```bash knext project create --config_path ./example.cfg ``` 上述脚本将会读取给定路径下的配置文件,并据此生成一套完整的初始架构供后续迭代完善之用[^4]. #### 自动化医疗领域知识提取案例分析 针对医学方向的应用场景,OpenSPG 提供了一套简便易行的方法论去自动化地建立专业知识网络。其中涉及到的关键环节之一就是选用合适的自然语言处理模型作为支撑。例如,在某个具体的实践中采用了 GPT-3.5 进行情感倾向识别任务之前,先要确保已经正确设置了相应的 API 接口信息于 JSON 格式的设定项之中: ```json { "nn_name": "gpt-3.5", "openai_api_key": "<Your_OpenAI_API_Key>", "openai_api_base": "https://api.openai.com/v1", "openai_max_tokens": 2000 } ``` 注意替换 `<Your_OpenAI_API_Key>` 为实际有效的密钥字符串[^5].
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值