基于crf的命名实体识别的一部分总结加文本分类大致流程

最新推荐文章于 2022-09-12 17:36:30 发布

zuanfengxiao

最新推荐文章于 2022-09-12 17:36:30 发布

阅读量2.3k

点赞数

分类专栏：基于tensorflow的nlp

本文链接：https://blog.csdn.net/zuanfengxiao/article/details/78647401

版权

基于tensorflow的nlp 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

论文一：基于条件随机场的中文人名性别识别

方法：1.将知识的学习转换为字符串的标注（crf）

2.按字抽取，对每一个字进行分类识别（机器学习）

性能评价：采用比较常见的性能评价指标准确率Precision、召回率Recall和F1-Measure

一、文本预处理：

分词：方法一：查词典法，不断查找语词典一样的词语从而完成分词

方法二：机器学习/统计法：hmm crf 在一起的频率最高的，就分成一个词语

工具：jieba分词，ltp。。。社交语言的分词：正则表达式

词干提取器：各种stemmer(找词根)

from nltk.stem.porter import PorterStemmer

porter_stemmer=Portemmar()

porter_stemmer.stem('maximum')

输出即为：maximum

停止词：基于意思的歧义消除，即，如果注重文本的意思，则需要使用停用词。若只注重行文习惯，则不应去除停止词

词形统一化

二、自然语言处理：文本变数字（特征化）

三、根据ml模型，对应上各自的label

data.head()#先看数据长啥样

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zuanfengxiao

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

自然语言处理（NLP）：22 BERT中文命名实体识别

艾文

06-16

5087

本文主要通过不同的数据集来进行 NER 模型验证验证，以及指定一些通过训练 NER 任务的一套标准，通过两条路线进行分析和总结。（1）工业界场景-> 学术界 NER 论文-> BERT 实现 NER 方案以及源码分析（2）预料数据-> 业务数据可视化分析-> 标准数据格式转换-> 模型训练-> 在线预测-> 序列标准任务优化和拓展作者：走在前方博客：https://wenjie.blog.csdn.net/ 专注于文本分类、关键词抽取、文本摘要、FQA .

超详综述 | 基于深度学习的命名实体识别

Paper weekly

05-25

6430

©PaperWeekly 原创 ·作者｜马敏博单位｜西南交通大学硕士生研究方向｜命名实体识别论文名称：A Survey on Deep Learning for Named Entit...

参与评论您还未登录，请先登录后发表或查看评论

文本分类相关程序和数据，包括TextCNN RNN CRF等

12-15

其中包括程序项目三个， Text CNN，RNN＋CRT，CNN＋LSTM的文本分类。包括数据训练集和测试集。文本分类是NLP的基础任务，掌握它是进阶的基础 enjoy

BiLSTM+CRF(三）命名实体识别 实践与总结

jmhIcoding

12-10

6746

本博文是对上一篇博客(https://blog.csdn.net/jmh1996/article/details/84779680 BiLSTM+CRF(二）命名实体识别 )的完善。数据处理功能模块语料库数据格式：训练集： source_data.txt :文本每一行为一个句子，每个句子用“\n”隔开，句子内部词之间用空格分开。精品、专题、系列、稀见程度才是...

CRF总结

weixin_40485502的博客

02-01

300

文章目录1.表示1.1 一般表示1.2联合表示1.3 矩阵表示实例2 推断参考文献 CRF 是无向图模型它是一个判别式模型建模了每个状态和整个观测序列的依赖 1.表示 1.1 一般表示 g=s f=t 1.2联合表示 1.3 矩阵表示实例 2 推断 ◼实际上, 梯度上升收敛非常慢 ⚫ 替代选择: ◆ 共轭梯度方法 ◆ 内存受限拟牛顿法参考文献国科大prml...

命名实体识别学习总结

qq_41619630的博客

03-05

652

#Named entity recognition(NER) 1.概念：NER任务是识别提及命名实体的文本范围，并将其分类为预定类别，例如人员，位置，组织等。涉及两个任务：识别、分类。 2.分类：（1）通用领域：人名地名机构名；（2）特殊领域：医学、建筑…。 2.主要方式：（1）基于规则：主要是根据人为设定的模板，以及预定义的领域规则。很明显，这种方式能够得到很高的召回率，但是却损失了精度。...

文本分类任务和命名实体识别任务进行多任务学习中的问题

weixin_48592695的博客

09-12

784

与标准的单任务相比，在学习共享表示的同时训练多个任务有两个主要挑战： Loss Function(how to balance tasks)：多任务学习的损失函数，对每个任务的损失进行权重分配，在这个过程中，必须保证所有任务同等重要，而不能让简单任务主导整个训练过程。手动的设置权重是低效而且不是最优的，可能会出现第一个任务已经训练的很好了，然而第二个任务还完全没有收敛。

基于BiLSTM-CRF的命名实体识别 附完整代码.zip

02-08

求构造一个命名实体识别（NER）模型，除了基本的预测功能外，能够对测试集进行批量预测并将测试结果保存为文件。中文分词指的是将一个汉字序列切分成一个一个单独的词。中文分词是文本挖掘的基础，对于输入的一段...

NLP之中文命名实体识别

热门推荐

miner_zhu的博客

09-25

5万+

在MUC-6中首次使用了命名实体（named entity）这一术语，由于当时关注的焦点是信息抽取（information extraction）问题，即从报章等非结构化文本中抽取关于公司活动和国防相关活动的结构化信息，而人名、地名、组织机构名、时间和数字表达（包括时间、日期、货币量和百分数等）是结构化信息的关键内容。 命名实体识别(Named EntitiesRecognition，NER)，...

bert模型可以做文本主题识别吗_「NLP-NER」如何使用BERT来做命名实体识别

weixin_39662228的博客

12-22

383

命名实体识别(Named Entity Recognition，NER)是NLP中一项非常基础的任务。NER是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具。上一期我们详细介绍NER中两种深度学习模型，LSTM+CRF和Dilated-CNN，本期我们来介绍如何基于BERT来做命名实体识别任务。作者 | 小Dream哥编辑 | 言有三1 引入BERT笔者在之前的文章中介绍过B...

双向LSTM-CNN的命名实体识别：双向LSTM-CNN的命名实体识别

02-06

更好的NER 具有双向LSTM-CNN的命名实体识别 命名实体识别的双向LSTM_CNN的keras实现。原始论文可以在找到该实现与原始论文的不同之处在于：不考虑词典使用存储桶可加快培训速度使用nadam优化程序代替SGD 结果该模型在约70个时期内产生90.9％的测试F1得分。对于给定的体系结构，本文产生的结果是91.14体系结构（带有emb + caps的BILSTM-CNN）数据集 conll-2003 论文网络模型使用Keras构建网络模型运行脚本 python3 nn.py 要求 0) nltk 1) numpy 2) Keras==2.1.2 3) T

命名实体识别的几点心得

a8530764的博客

07-25

923

ner模型除了用词典规则之外，主要就是特征提取器+crf模型了。特征提取可以采用onehot、词频向量、w2v、lstm、cnn、bert等其中的一种或者组合。本人现在在做能源领域的知识图谱，对ner优化有点几点心得，分享给大家，供参考。心得1：字向量 or 词向量词向量会存在oov情况，需要人工维护。字向量可能会学不出来词语的关系，采用带双向功能的特征提取器可缓解此问题，比如bilstm、bert等。在训练数据质量较差的时候（比如口语化较多，错别字较多，简称缩写较多等），采用字向量

python语言特点多模型_利用CRF模型进行文本分类完整教程（Python语言）

weixin_39962153的博客

12-05

718

简介世界上产生的文本数据量十分惊人：谷歌每秒处理超过40000次搜索！根据福布斯的报道，我们每分钟要发送1600万条短信，在脸谱网(Facebook)上发布51000条评论。对门外汉来说，光是掌握数据量的绝对大小就很难吧？仅新闻网站和其他在线媒体每小时就会生成大量文本内容。如果没有正确的工具，分析数据中的模式则令人望而生畏。在此我们将讨论运用实体识别技术的条件随机域 (Conditional Ra...

【NLP】基于CRF条件随机场的命名实体识别原理详解

zkq_1986的博客

07-30

1万+

1. 命名实体用来做什么？在自然语言处理应用领域中，命名实体识别是信息检索、知识图谱、机器翻译、情感分析、问答系统等多项自然语言处理应用的基础任务，例如，我们需要利用命名实体识别技术自动识别用户的查询，然后将查询中的实体链接到知识图谱对应的结点上其识别的准确率将会直接影响到后续的一系列工作。 2. 命名实体识别有哪些难点？命名实体在不同领域或不同场景下的识别具有较大的差异。目前已标注的语...

《基于Tensorflow的知识图谱实战》 --- 实战文本分类与命名实体识别，快速构建知识图谱（王晓华著）

d_eng_的博客

06-25

626

⚽开发平台：jupyter lab🎈运行环境：python3、TensorFlow2.x本书选用TensorFlow 2作为深度学习的框架，从基础语法开始到使用TensorFlow 2进行深度学习知识图谱的构建和实战代码的编写，全面介绍使用TensorFlow 2进行知识图谱构建的核心技术和涉及的相关知识，内容翔实。.........

基于bert预训练后处理任务，根据intent做文本分类和slot做实体识别任务的简要总结

weixin_41710583的博客

02-04

521

一、基于bert的分类任务识别intent 01　数据包含一段话和这段话所包含的intent＋entity，然后从中识别出标注的intent+entity 　　（１）处理数据部分，将文本数据切分为token列表。　　（２）将intent+entity构成的列表数据，然后为对应位置数字　　（３）将token根据bert模型，将文本形式转化为数字　　（４）将数据输入构建好的基于bert的预训练模型，并对结果进行finetinue，得到loss (5) 设置500epochs...

命名实体识别(NER)

济舒小柏

10-27

8142

学习笔记，详情请点击此处。 0、前言 NER又称作专名识别，是自然语言处理中的一项基础任务，应用范围非常广泛。命名实体一般指的是文本中具有特定意义或者指代性强的实体，通常包括人名、地名、组织机构名、日期时间、专有名词等。NER系统就是从非结构化的输入文本中抽取出上述实体，并且可以按照业务需求识别出更多类别的实体，比如产品名称、型号、价格等。实体这个概念可以很广，只要是业务需要的特殊文本片段都可以称...

中文文本分类流程

啊噗啊噗

06-07

9775

利用python进行中文文本分类，主要包括以下几个流程①：一、预处理预处理主要是对训练集和测试集的语料库进行处理。训练集语料库是已经分好类的资料，处理时按照不同的类放入不同的路径下，如./train_corpus/C3-Art，……，\train_corpus\C39-Sports测试集语料库用于检测实际效果，也是已经分好类的语料库。如果语料库是自己爬取到的网页等内容中获取的文本，需要将html标...

CRF进行中文命名实体识别(使用sklearn_crfsuite进行实现)

weixin_43819931的博客

05-22

9918

使用sklearn_crfsuite进行中文命名实体识别

基于CRF命名实体识别