学习目标
• 了解自然语言处理基本知识
• 掌握循环神经网络算法
• 掌握自然语言处理关键技术
• 了解自然语言处理的应用
分词
分词的定义
• 中文分词(Chinese Word Segmentation) :指的是将一个汉字序列切分成一个个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
• 例如:一九九八年/中国/实现/进出口/总值/达/一千零九十八点二亿/美元
• 在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂得多、困难得多。
规则分词
• 规则分词:是一种机械分词方法,主要是通过维护词典,在切分语句时,将语句中的每个字符串与词表中的词进行逐一匹配,找到则切分,否则不予切分。按照匹配切分的方式,主要有:
• 正向最大匹配法(Maximum Match Method, MM法)