一、概念
https://modelscope.cn/models/ZJUNLP/OneKE/summary
OneKE是由蚂蚁集团和浙江大学联合研发的大模型知识抽取框架,具备中英文双语、多领域多任务的泛化知识抽取能力,并提供了完善的工具链支持。OneKE以开源形式贡献给OpenKG开放知识图谱社区。
OneKE 主要聚焦基于 Schema 的可泛化信息抽取,采用了基于 Schema 的轮询指令构造技术,专门针对提升大模型在结构化信息抽取的泛化能力进行了优化,旨在通过提供中英双语、可泛化的大模型知识抽取,OneKE 在一定程度上具备统一、通用、可泛化的知识抽取能力。同时,配套开源 OpenSPG 及 DeepKE开源框架的支持,支持开箱即用。帮助研究人员和开发者更好地处理信息抽取、数据结构化、知识图谱构建等问题。
二、能力-功能-用途
用于:
实体命名识别(NER)
关系识别(RE)
知识图谱构建(KGC)
事件抽取(EE)
事件触发词识别(EET)
事件论元抽取(EEA)
基于非结构化文档的知识构建一直是知识图谱大规模落地的关键难题之一,因为真实世界的信息高度碎片化、非结构化,大语言模型在处理信息抽取任务时仍因抽取内容与自然语言表述之间的巨大差异导致效果不佳,自然语言文本信息表达中因隐式、长距离上下文关联存在较多的歧义、多义、隐喻等,给知识抽取任务带来较大的挑战。针对上述问题,蚂蚁集团与浙江大学依托多年积累的知识图谱与自然语言处理技术,联合构建和升级蚂蚁百灵大模型在知识抽取领域的能力,并发布中英双语大模型知识抽取框架OneKE,同时开源基于Chinese-Alpaca-2-13B全参数微调的版本。测评指标显示,OneKE在多个全监督及零样本实体/关系/事件抽取任务上取得了相对较好的效果。
三、核心要点
OneKE目前的开源模型版本提供了基于Schema的可泛化信息抽取。由于现有的抽取指令数据存在格式不统一、数据噪音、多样性弱等问题,OneKE采取了基于Schema的轮询指令构造技术,专门针对提升大模型在结构化信息抽取的泛化能力进行了优化,相关内容可查阅论文“IEPile: Unearthing Large-Scale Schema-Based Information Extraction Corpus Github”。
四、特点
更泛华地提取信息
基于Chinese-Alpaca-2-13B 全参数微调的版本
五、评估
六、其它
训练和推理建议至少具备20GB的显存
七、使用感受
暂未查询到加速相关信息,生成速度慢。主要用于自定义实体提取、关系提取、知识图谱、时间提取、时间触发提取、时间参数提取等。但模型太大,推理效率不足。推理一次超47s,fp16版推理质量可能会好些。