自然语言处理——学习笔记(5):NLP基础任务——序列标注

序列标注
  1. 序列标注任务概述
    序列标注方法:将输入的语言序列转化为标注序列,通过标注序列标签含义来解决问题
    主要问题:命名实体识别、信息抽取、词性序列标注

  2. 马尔可夫模型HHM(概率模型)
    如果系统在 t 时间的状态 qt 只与其在时间t-1的状态相关则系统构成离散的一阶马尔科夫链(马尔可夫过程)在这里插入图片描述
    在这里插入图片描述

  3. 隐马尔可夫模型HHM(概率模型)在这里插入图片描述

    HMM五元组

    • 隐藏状态s:一个系统的真实状态,可由一个马尔可夫过程进行描述

    • 观察状态o:在这个过程中可视的状态

    • 状态转移概率矩阵A:包含了一个隐藏状态到另一个隐藏状态的概率

    • 观察概率矩阵B:从隐藏状态 S j S_j Sj观察到某一特定符号 V k V_k Vk的概率分布概率

    • 初始状态的概率分布: π \pi π

    • HMM评估问题在这里插入图片描述

    • 定义 P ( O ∣ λ ) P(O|\lambda) P(Oλ)在这里插入图片描述

    • 计算 P ( O ∣ λ ) P(O|\lambda) P(Oλ)

      • 穷举法 时间复杂度 O ( N T ) O(N^T) O(NT)

      • 前向算法/后向算法在这里插入图片描述

        时间复杂度 O ( N 2 T ) O(N^2T) O(N2T)在这里插入图片描述
        在这里插入图片描述

    • HMM解码问题在这里插入图片描述

      • 穷举法:找到每一种可能产生观察序列的状态序列,计算每种可能情况下观察序列的概率,概率最大的状态序列就是要找的状态序列
      • Viterbi搜索算法:利用动态规划使用递归来降低计算复杂度在这里插入图片描述
        在这里插入图片描述
    • HMM参数学习

      • 产生观察序列O的隐藏状态已知,可以采用有监督的学习方法,用最大似然估计计算参数
      • 产生观察序列O的隐藏状态未知,可以采用无监督EM学习方法
    • 应用

      • 分词:
        • HMM评估:当分词出现多种可能时,求观察序列的概率,结果取概率最大的序列;
        • 解码问题:用序列标注直接进行分词
      • 词性标注
      • 短语识别、语音识别
  4. 神经网络序列标注模型在这里插入图片描述

    存在问题:输出之间相互独立,可能出现BB情况
    改进思路:建立输出之间的关系——CRF模型(设置一组参数A学习标签之间的状态转移概率)在这里插入图片描述
    在这里插入图片描述

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值