分词

分词是自然语言处理的基础,涉及规则方法、机器学习模型(N-gram、HMM、最大熵、SVM、CRF)和深度学习。深度学习中的文本向量化和LSTM等模型能降低特征配置难度,提高分词效率,尤其适用于大规模文本处理。
摘要由CSDN通过智能技术生成

分词是进行词性标注、命名实体识别、关键词提取、文本聚类等后续自然语言处理任务的基础,也是语义分析等深层次文本理解任务的基础。
研究方法主要分为 三种:
• 基于规则的方法
• 基于传统机器学习模型的方法:

0. N-gram语言模型
N-gram 语言模型是用来计算一个词串或者是一句话W=w1w2…wn出现概率的统计模型。N-gram 模型假设某词的出现概率只与该词前面的 n-1 个。
对于 N-gram 语言模型,在参数估计方面一般采取最大似然估计。利用语料数据中词汇同现的相对频率就可以得到条件概率的极大似然估计
1. 隐马尔可夫模型(HiddenMarkovMode,HMM)
隐马尔可夫模型在训练和识别时的速度要快一些,主要是由于在利用Viterbi算法求解命名实体类别序列的效率较高。隐马尔可夫模型更适用于一些对实时性有要求以及像信息检索这样需要处理大量文本的应用,如短文本命名实体识别。
2. 最大熵(MaxmiumEntropy,ME)
最大熵模型结构紧凑,具有较好的通用性,主要缺点是训练时间复杂性非常高,有时甚至导致训练代价难以承受,另外由于需要明确的归一化计算,导致开销比较大。
3. 支持向量机(Support VectorMachine,SVM)
最大熵和支持向量机在正确率上要比隐马尔可夫模型高一些
4. 条件随机场( ConditionalRandom Fields,CRF)
条件随机场为命名实体识别提供了一个特征灵活、全局最优的标注框架,但同时存在收敛速度慢、训练时间长的问题。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值