Python与自然语言处理——词性标注与命名实体识别(一)

本文介绍了词性标注和命名实体识别的基本概念,使用Jieba进行词性标注,并探讨了基于随机条件场的命名实体识别方法,尤其是日期识别的实现。提供了完整的代码示例链接。
摘要由CSDN通过智能技术生成

词性标注与命名实体识别(一)

词性标注

词性标注简介
  • 词性标注是在给定句子中判定每个词的语法范畴,确定其词性并标注的过程。
  • 中文特点:
    • 一个词的词性是不固定的
    • 但从整体上看,一个词常用的只有1、2种词性(特别是实词)
词性标注规范

词性标注一般需要一定的标注规范,如将词分为名词、形容词、动词等。中文领域尚无统一标准,常用的包括:

  • 北大的词性标注集
  • 宾州词性标注集

这里我们使用北大词性标注集:
北大词性标注集

Jieba的词性标注
  • 标注流程如下
    • 首先通过正则表达式判断是否为汉字,若符合表达式则判定为汉字
    re_han_internal=re.compile("[\u4E00-\u9FD5a-zA-Z0-9+#&\._]+)")
    
    • 然后基于前缀词典构建有向无环图,进一步计算最大概率路径,同时在前缀词典中找出它所分出的词性,若未找到则设置为“未知”
    • 若是汉字则根据正则表达式继续匹配,赋予“未知”、“数字”和“英语”。
  • 代码示例
######词性标注######
import jieba.posseg as psg

sent="中文分词是文本处理不可或缺的一步!"
seg_list=psg.cut(sent)
print(' '.join(['{0}/{1}'.format(w,t) for w,t in seg_list]))
  • 显示结果

中文/nz 分词/n 是/v 文本处理/n 不可或缺/l 的/uj 一步/m !/x


命名实体识别(NER)

命名实体识别简介
  • 目标:识别语料中的人名、地名、组织机构名等命名实体。
  • 命名实体
    • 三大类:实体类、时间类以及数字类
    • 七小类:人名、地名、组织机构名、时间、日期、货币和百分比
  • 还存在的问题
    • 只在有限的文本类型和实体类型取得了效果
    • 实体命名评测语料较小,容易过拟合
    • 更侧重高召回率
    • 通用的识别多种类型的命名实体系统性差
  • 中文命名实体识别的主要难点
    • 各类命名实体的数量众多
    • 命名实体的构成规律复杂
    • 嵌套情况复杂
    • 长度不确定
  • 主要方法
    • 基于规则
    • 基于统计
    • 混合方法
基于随机条件场的命名实体识别
  • 随机条件场的定义
    X = ( X 1 , X 2 , ⋯   , X n ) X = \left( { {X_1},{X_2}, \cdots ,{X_n}} \right) X=(X1,X2,,Xn) Y = ( Y 1 , Y 2 , ⋯   , Y m ) Y = \left( { {Y_1},{Y_2}, \cdots ,{Y_m}} \right) Y=(Y1,Y2,,Ym)是联合随机变量,若随机变量 Y Y Y构成一个无向图 G = ( V , E ) G = \left( {V,E} \right) G=(V,E)表示的马尔可夫模型,则其条件概率分布 P ( Y ∣ X ) P\left( {Y\left| X \right.} \right) P(YX)称为条件随机场(CRF),即
    P ( Y v ∣ X , Y w , w ≠ v ) = P ( Y v ∣ X , Y w , w ∼ v ) P\left( { {Y_v}\left| {X,{Y_w},w \ne v} \right.} \right) = P\left( { {Y_v}\left| X \right.,{Y_w},w \sim v} \right) P(YvX,Yw,w̸=v)=P(YvX,Yw,wv)
    其中 w ∼ v w\sim v wv表示图 G = (
  • 1
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值