词性标注与分词学习

@[词性标注与分词]

1.数据标注

在词性标记集已确定,并且词典中每个词都有确定词性的基础上,对一个输入词串转换成相应词性标记串的过程叫做词性标注。

例如“我爱自然语言处理技术” :
“我”是 代词 r ;
“爱”是 动词 v。

1.1难点

需要注意兼用现象,兼用现象常常出现并且容易出现歧义,大家对某些词性的汉语尚未达成统一的标准,因此,还没有统一的标准划分词性也加大了词性标注的困难。

1.2方法

1.基于规则
早期的人工标注

2.基于统计模型
在有标记数据的大型语料库下进行训练
HMM 隐马尔科夫模型
CRF 条件随机域

3.基于统计和规则结合
前两种结合:对统计模型标准结果筛选,只对可疑的标注结果采用规则方法进行歧义消解

4.基于DL
当作序列标注任务来做
LSTM+CRF
BiLSTM+CRF

2.分词

通过空格 或者 其他 边界标记 将汉字序列 按照一定的规范 切分成单词的词(可以单个、两个、三个…)成为分词。

参考《PFR人民日报标注语料库》的词性编码表:

在这里插入图片描述在这里插入图片描述在这里插入图片描述

参考文献

参考材料网址1:https://blog.csdn.net/diyiday/article/details/87940222
参考材料网址2:https://blog.csdn.net/qq_43132511/article/details/98443622?tdsourcetag=s_pcqq_aiomsg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值