NLP:命名实体识别及案例(Bert微调)

Sun_Sherry(停更)

已于 2024-09-25 17:36:11 修改

阅读量1.2k

点赞数 3

分类专栏： # 自然语言处理文章标签：自然语言处理 bert 人工智能

于 2024-09-22 19:19:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yeshang_lady/article/details/142413257

版权

1. 命名实体识别

1.1 序列标注

序列标注(Sequence Labeling)是NLP中最基础的任务之一，其应用十分广泛。它指的是对给定的序列(如文本中的单词或字符)中的每个元素进行标注，以识别出该元素在序列中的特定角色或属性。

1.2 命名实体识别

命名实体识别(Named Entity Recognition, NER)是序列标注任务中的一种，旨在从文本中识别并分类特定的实体。识别的实体通常包括人名、地名、机构名、时间、日期、货币等。这种识别在许多实际应用中非常重要，如信息提取、自动问答、机器翻译和文本摘要。

2. 利用Bert微调模型进行命名实体识别

2.1 BIO标记

BIO标记法是命名实体识别中的一种常用数据标注方案，用于标记文本中每个单词的标签，明确它是属于实体的哪部分。BIO 标记法通过B-、I- 和O三个前缀来表示命名实体的边界和结构：

B-(Begin):表示命名实体的开头。例如，B-PER表示人名实体的第一个单词。
I-(Inside):表示命名实体的内部部分。例如，I-PER 表示人名实体中非首字的单词。
O(Outside):表示这个单词不属于任何命名实体。

BIO标记方法中通常包含：PER(人名)、ORG(组织名)、LOC(地名)和MISC(事件、产品、国籍、语言)

2.2 数据集介绍

这里使用NER任务中常用的数据集:CoNLL-2003，该数据集最早由 CoNLL(Conference on Computational Natural Language Learning)共享任务发布，广泛应用于自然语言处理中的 NER 任务。该数据集中训练集共14041条，验证集共3250条，测试集共3453。训练集中的数据如下：

{
   
    "chunk_tags": [11, 12, 12, 21, 13, 11, 11, 21, 13, 11, 12, 13, 11, 21, 22, 11, 12, 17, 11, 21, 17, 11, 12, 12, 21, 22, 22, 13, 11, 0],
    "id": "0",
    "ner_tags": [0, 3, 4, 0, 0, 0, 0, 0, 0, 7, 0, 0, 0, 0, 0, 7, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
    "pos_tags"

最低0.47元/天解锁文章

Sun_Sherry(停更)

博客等级

码龄9年

270
原创

1172
点赞

5128
收藏

676
粉丝

关注

私信

热门文章

分类专栏

vue
大语言模型 10篇
Tensorflow 2篇
Torch
LangChain 5篇
自然语言处理 6篇
区块链 15篇
Hyperledger Fabric 10篇
Go语言 3篇
机器学习 39篇
PySpark 16篇
数据清洗 16篇
Kettle工具 13篇
Python 57篇
Tableau 33篇
SQL 12篇
数据分析 18篇
Echarts 3篇
读书笔记 11篇
LeetCode 5篇
爬虫 6篇

展开全部收起

最新评论

Fabric:链码的部署及执行
2401_82389626: 哥们你们解决了吗，我也碰到了这个问题
LLM:函数调用(Function Calling)
某xxx: 所以 qwen 一直报这个错messages with role ‘tool’ must be a response to a preceeding message with ‘tool_calls’
Fabric:使用GoLand+Fabric-SDK-Go操作Fabric网络(附代码)
deft123456789: 想问一下博主是怎么设置背书策略的，我初始化的时候一直报错 error getting channel response for channel [carchannel]: Discovery status Code: (11) UNKNOWN. Description: error received from Discovery Server: failed constructing descriptor for chaincodes:<name:"carcc" > 查看容器日志报错， [discovery] chaincodeQuery -> Failed constructing descriptor for chaincode chaincodes:<name:"carcc" > : no peer combination can satisfy the endorsement policy 就是搞不懂背书策略哪里出错了
Fabric:使用GoLand+Fabric-SDK-Go操作Fabric网络(附代码)
deft123456789: 博主，这个每次运行代码之后，ccversion改动之后，还是报错了，我每次运行一次我就加一，我有一点不理解的是，我每次都是把容器清空了再启动再运行程序的，为什么还要改这个版本号呀，我直接docker-compose down -v，直接清空容器的，为啥还要加1呢？求博主解答
Fabric:使用GoLand+Fabric-SDK-Go操作Fabric网络(附代码)
deft123456789: 博主，遇到这个错误该咋处理呀，就是在组织批准链码的时候报错了 [fabsdk/util] 2025/02/27 02:47:43 UTC - lazyref.(*Reference).refreshValue -> WARN Error - initializer returned error: load MSPs from config failed: configure MSP failed: sanitizeCert failed the supplied identity is not valid: x509: certificate signed by unknown authority. Will retry again later sending approve transaction proposal failed to verify signature: Failed to verify signature: Endorser Client Status Code: (8) SIGNATURE_VERIFICATION_FAILED. Description: the creator certificate is not valid

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。