中文分词--词典分词--最长匹配

FibonacciCode

于 2021-01-05 22:30:37 发布

阅读量1.5k

点赞数

本文链接：https://blog.csdn.net/yuebowhu/article/details/112253256

版权

本文介绍了中文分词的基本概念，详细讲解了正向、逆向和双向最长匹配算法，并通过实例分析了各种算法的优缺点。通过对比，揭示了规则系统在中文分词中的局限性。

摘要由CSDN通过智能技术生成

（个人学习笔记，慎重参考）

1 基本概念

中文分词

指的是将一段文本拆分为一系列单词的过程，这些单词顺序拼接后等于原文本。
作为中文信息处理的第一站，是后续nlp任务的基础，中文分词算法大致可分为词典规则与统计学习，针对具体问题往往会以统计学习为主、词典规则为辅。

2 正向最长匹配

最长匹配算法

就是在以某个下标为起点递增查词的过程中，优先输出更长的单词，这种规则被称为最长匹配算法。从前往后匹配则称为正向最长匹配，反之则称为逆向最长匹配。

# -*- coding:utf-8 -*-

from tests.book.ch02.utility import load_dictionary


def forward_segment(text, dic):
    word_list = []
    i = 0
    while i < len(text):
        longest_word = text[i]                      # 当前扫描位置的单字
        for j in range(i + 1, len(text) + 1):       # 所有可能的结尾
            word = text[i:j]                        # 从当前位置到结尾的连续字符串
            if word in dic:                         # 在词典中
                if len(word) > len(longest_word):   # 并且更长
                    longest_word = word             # 则更优先输出
        word_list.append(longest_word

最低0.47元/天解锁文章