二、NLP中的序列标注(分词、主体识别)

 NLP学习笔记系列,欢迎收藏交流:

零、自然语言处理开篇-CSDN博客

一、NLP中的文本分类-CSDN博客

二、NLP中的序列标注(分词、主体识别)-CSDN博客

三、NLP中的句子关系判断-CSDN博客

四、自然语言中的生成式任务-CSDN博客

一般来说,一个序列指的是一个句子,而一个元素指的是句子中的一个词。在序列标注中,我们想对一个序列的每一个元素标注一个分类标签。比如信息提取问题可以认为是一个序列标注问题,如提取出会议时间、地点等。

常见的应用场景:分词,实体识别等。

2.0 分词、词性标注

例如如下一个句子:腾讯是中国最大的游戏公司

腾-ic 讯-ic 是-v 中-ns 国-ns 最-a 大-a 的-uj 游-n 戏-n 公-n 司-n

学习后将得到如下结果:

[pair('腾讯', 'ic'), pair('是', 'v'), pair('中国', 'ns'), pair('最大', 'a'), pair('的', 'uj'), pair('游戏', 'n'), pair('公司', 'n')]

其中ic即为我们新定义的一个词性“互联网公司”,这样就能够在分词时,直接得到我们想要的预测结果。

2.1 命名实体,BIO标注方式

(1)常见的实体:人名、机构名、地名、时间、日期、货币和百分比

(2)标注方式:

原句:2024年3月8日是世界第114个妇女节
标注后:2024年3月8日-B-时间 下午-O-时间 15点50分-O-时间 我-O 写下-O 了-O 此-O 博客-O

2.2 模型选用

常用模型:HMM(已知上文,推理下文,隐马尔科夫假设:某一时刻的状态只与前一个时刻的状态有关,而与其他时刻状态无光)、CRF(包含更多上下文推理)、RNN、LSTM、BiLSTM这些与时序相关的模型。或者采用深度模型+概率模型相结合的方式进行,效果会更好。

  • 8
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值