分词

最新推荐文章于 2024-06-09 16:15:12 发布

张小莹说她很忙

最新推荐文章于 2024-06-09 16:15:12 发布

阅读量323

点赞数

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/zyy848877920/article/details/82715757

版权

分词是自然语言处理的基础，涉及规则方法、机器学习模型（N-gram、HMM、最大熵、SVM、CRF）和深度学习。深度学习中的文本向量化和LSTM等模型能降低特征配置难度，提高分词效率，尤其适用于大规模文本处理。

摘要由CSDN通过智能技术生成

分词是进行词性标注、命名实体识别、关键词提取、文本聚类等后续自然语言处理任务的基础，也是语义分析等深层次文本理解任务的基础。
研究方法主要分为三种:
• 基于规则的方法
• 基于传统机器学习模型的方法：

0. N-gram语言模型
N-gram 语言模型是用来计算一个词串或者是一句话W=w1w2…wn出现概率的统计模型。N-gram 模型假设某词的出现概率只与该词前面的 n-1 个。
对于 N-gram 语言模型，在参数估计方面一般采取最大似然估计。利用语料数据中词汇同现的相对频率就可以得到条件概率的极大似然估计
1. 隐马尔可夫模型(HiddenMarkovMode,HMM)
隐马尔可夫模型在训练和识别时的速度要快一些，主要是由于在利用Viterbi算法求解命名实体类别序列的效率较高。隐马尔可夫模型更适用于一些对实时性有要求以及像信息检索这样需要处理大量文本的应用,如短文本命名实体识别。
2. 最大熵(MaxmiumEntropy,ME)
最大熵模型结构紧凑，具有较好的通用性，主要缺点是训练时间复杂性非常高，有时甚至导致训练代价难以承受，另外由于需要明确的归一化计算，导致开销比较大。
3. 支持向量机(Support VectorMachine,SVM)
最大熵和支持向量机在正确率上要比隐马尔可夫模型高一些
4. 条件随机场( ConditionalRandom Fields,CRF)
条件随机场为命名实体识别提供了一个特征灵活、全局最优的标注框架，但同时存在收敛速度慢、训练时间长的问题。

最低0.47元/天解锁文章

张小莹说她很忙

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分词

分词是进行词性标注、命名实体识别、关键词提取、文本聚类等后续自然语言处理任务的基础，也是语义分析等深层次文本理解任务的基础。研究方法主要分为三种: • 基于规则的方法 • 基于传统机器学习模型的方法： 0. N-gram语言模型 N-gram 语言模型是用来计算一个词串或者是一句话W=w1w2…wn出现概率的统计模型。N-gram 模型假设某词的出现概率只与该词前面的 n-...
复制链接

扫一扫

专栏目录