PaddleNLP命名实体识别环境搭建&推理测试

引子

最近手上接了一个活儿,基于文本语料的实体抽取任务,调研了一圈发现目前开源轮子做的比较好的也就是PaddleNLP(大模型那种巨废资源,且幻觉严重的,不予考虑)。OK,那就让我们开始吧。

一、命名实体识别概念

命名实体识别(Named EntitiesRecognition,NER)是自然语言处理的一个基础任务。其目的是识别语料中人名、地名、组织机构名等命名实体。由于命名实体数量不断增加,通常不可能在词典中穷尽列出,且其构成方法具有各自的一些规律性,因而,通常把对这些词的识别从词汇形态处理(如汉语切分)任务中独立处理,称为命名实体识别。命名实体识别技术是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术必不可少的组成部分。

二、PaddleNLP环境搭建

conda create -n PaddleNLP python==3.9

conda activate PaddleNLP

pip install paddlepaddle-gpu -i Simple Index

pip install --upgrade paddlenlp -i Simple Index

参考文档

GitHub - PaddlePaddle/PaddleNLP: 👑 Easy-to-use and powerful NLP and LLM library with 🤗 Awesome model zoo, supporting wide-range of NLP tasks from research to industrial applications, including 🗂Text Classification, 🔍 Neural Search, ❓ Question Answering, ℹ️ Information Extraction, 📄 Document Intelligence, 💌 Sentiment Analysis etc.

根据官方文档命名实体识别,基于百度解语,内置91种词性及专名类别标签,具体如下:

三、测试

1、官方测试代码

from pprint import pprint

from paddlenlp import Taskflow

schema = ['时间', '选手', '赛事名称'] # Define the schema for entity extraction

ie = Taskflow('information_extraction', schema=schema)

pprint(ie("2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌!"))

2、CCTV新闻测试

新闻内容

“由日中经济协会、经济团体联合会(经团联)、日本商工会议所(日商)等日本经济界团体组成的日中经济协会联合访华代表团(以下简称日本经济界访华团)于1月23日至26日访问北京。25日晚间,日本经济界访华团最高顾问、经团联会长十仓雅和(住友化学董事长)对《环球时报》记者表示,虽然日中之间存在不同,但也可开展互惠互利的合作,日方正在和中方共同努力。去年11月在旧金山举行的日中领导人会晤重新确认全面推进战略互惠关系的两国关系定位,则有助于构建具有建设性的、稳定的日中关系。”

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

要养家的程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值