命名实体识别(Named Entity Recognition,NER)

命名实体识别是指在文本中定位命名实体的边界并分类到预定义类型的集合的过程。实体的标注形式有BIOE等,其中B是body的缩写,I是in的缩写,O是output的缩写,E是expect的缩写。

NER的输入是一个句子对应的单词序列 s = < w 1 , w 2 , . . . w n > s=<w_1,w_2,...w_n> s=<w1,w2,...wn>,输出是一个三元组集合,其中每个元组形式为 < I s , I e , i t > <I_s, I_e,i_t> <Is,Ie,it>,表示 s s s中的一个命名实体,其中 I s I_s Is T e T_e Te分别代表命名实体在 s s s中的开始和结束的位置,而 t t t是实体的类型。

对于NER任务,比较经典的方法是BILSTM-CRF,关于LSTM可以参见长短时记忆网络,CRF是一种判别式模型,直接建模并求解使 P ( Y ∣ X ) P(Y|X) P(YX)最大的 Y Y Y,在CRF中,每个 y t y_t yt仅取决于 y t − 1 y_{t-1} yt1,还取决于整个的输入 X X X。相比较与HMM,其计算速度会慢,但能够获取全局的特征信息。

BILSTM-CRF的基本模型结构:
第一层:分布式表示层:
分布式表示层有词向量、字向量和混合表示几种方法。词向量可以参看word embedding。字向量通常使用RN和CNN进行提取,字向量是词向量的重要补充,尤其在中文这一类表意文字上的应用往往能够取得好的效果;
第二层:BILSTM层
第三层:CRF层

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值